在医疗科技不断进步的今天,内窥镜视频分析在疾病诊断等方面发挥着越来越重要的作用。今天要给大家介绍的是一篇名为 “Foundation Model for Endoscopy Video Analysis via Large - scale Self - supervised Pre - train” 的论文中提出的创新模型 ——Endo - FM,它为内窥镜视频分析带来了新的突破。
一、研究背景与意义
在医疗图像领域,基础模型虽已在多种下游任务中取得一定成果,但医疗数据成像模态复杂多样,临床数据收集成本高昂。当前,针对特定类型数据(如内窥镜视频)训练的基础模型仍十分匮乏,而内窥镜视频在胃肠道疾病诊断、微创手术和机器人手术等方面的研究日益增多,拥有一个有效的基础模型对推动相关下游任务的发展意义重大。
二、Endo - FM 模型架构
(一)视频变换器
Endo - FM 基于 ViT B/16 构建了视频变换器,包含高达 121M 的参数。该变换器通过 12 个编码器块处理输入的内窥镜视频,其独特的空间和时间注意力机制能够捕获跨越空间和时间维度的长距离依赖关系,这相比传统卷积核具有更大的感受野。在处理输入视频时,视频帧会被划分为多个小块(patches),每个小块映射为一个令牌(token),模型依次处理这些空间和时间令牌,逐步提取视频特征。同时,模型引入了动态时空编码策略,可适应不同空间大小和帧率的输入视频,确保在各种情况下都能有效编码视频信息。
(二)自监督预训练策略
- 师生方案与视图创建
为了让模型从内窥镜视频数据中学习到丰富的时空信息,Endo - FM 采用了自监督的师生方案进行预训练。在这个过程中,会为输入视频创建两种类型的视图:全局视图和局部视图。全局视图通过对原始视频以不同