
LLM 医学图像:多模态
文章平均质量分 96
1
Debroon
AI 医疗深度强化学习AI左右互博算法研究,让天下没有疾病缠身的人生和无法治愈的疾病。
WEB3 投研科学家系统性心得,让天下没有痛苦的创业者和家庭。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Med-MAT 医疗多模态大模型超级泛化:模型在学会了各种基础要素之后,就能自己组合这些要素,用到从未直接见过的新应用场景中,而不需要再从头学起
这篇论文的主要价值在于提出并验证了多模态大模型在医疗影像领域“组合泛化”(Compositional Generalization)的重要作用,并通过构建 Med-MAT 大规模数据集和大量对比实验,证明了只有共享了模态/解剖部位/任务特征的多任务数据,才能真正帮助目标任务更好地泛化学习,对于医学多模态模型的设计、训练数据的采集与选择有着重要的理论和实践指导意义。核心思路:相同的三要素(MAT-Triplet)会合并成同一个子数据集,以便观察在多任务多模态条件下如何更好地训练和测试模型。原创 2025-01-17 11:57:02 · 1108 阅读 · 0 评论 -
自监督学习在多模态大模型中的应用:基于对比学习、掩码重建的多模态对齐技术综述
类别问题:深度学习中的数据标注问题具体问题:人工标注数据成本高昂、耗时长、需要专业知识,且随着模型规模增大,获取足够的标注数据变得越来越困难。例如,一个医疗影像分类模型可能需要数十万张由专业医生标注的图像,这在实际中几乎不可能实现。概念介绍与总结:自监督学习是一种机器学习范式,它不依赖外部标注,而是利用数据本身的结构来构建学习目标。通过设计巧妙的学习任务,让模型在完成这些任务的过程中学习到有用的特征表示。概念重组:"自监督学习"可以理解为:通过自身数据进行监督,实现自主学习的过程。与上文关联:自监督学原创 2024-12-23 11:51:26 · 3448 阅读 · 0 评论 -
最强中医大模型,同时解决 AI 不会主动追问 + 多模态融合难题 + 没有参考幻觉问题
诊断准确率提升 60%,多轮问诊准确率 85%,问诊轮次匹配医生91%,治疗建议超GPT-4o 2.3倍,可代替50%初级医生,效率提升 5 倍原创 2025-07-10 10:16:44 · 1169 阅读 · 0 评论 -
SOTA 方法:多模态大模型学会心电图图像解析 + 100万ECG图像指令调优数据
论文:TEACH MULTIMODAL LLMS TO COMPREHEND ELECTROCARDIOGRAPHIC IMAGES代码:https://aimedlab.github.io/PULSE/Qwen 中文翻译:https://lxblog.com/efficiency/U/2YrXeXKeARnEF61PGTOhLwF2EIBKo84S 论文写作框架分析:Why - 这个研究要解决什么现实问题:What - 核心发现或论点是什么:How -前人研究的局限性:你的创新方法/视角:关键数据支持原创 2025-02-13 14:35:37 · 1193 阅读 · 0 评论 -
视觉提示调优:一种高效的Transformer迁移学习新方法 - 仅需1%参数实现超越全量微调的性能
VPT是一种在视觉Transformer模型输入空间添加可学习参数的方法,通过冻结预训练模型参数,仅训练少量任务特定参数来实现高效迁移学习。原创 2024-12-28 17:45:38 · 1172 阅读 · 0 评论 -
PandaGPT:利用ImageBind和Vicuna实现六模态零样本迁移的多模态大模型
PandaGPT是一个通用型多模态指令跟随模型,通过结合ImageBind的多模态编码器和Vicuna的语言模型,实现了跨六种模态的理解能力。PandaGPT就像一个精通多国语言的翻译官,不仅能听懂各种"语言"(模态),还能自然地在这些"语言"之间转换和组合含义,即使只学习过其中一对语言的对应关系。这些分析表明,PandaGPT是在现有研究基础上的重要突破,它不仅继承了前人的优秀成果,还在多个方面实现了创新,推动了多模态AI的发展。Pan(泛)模态的GPT,实现了跨越多种感知模态的整体理解。原创 2024-12-28 10:24:53 · 1030 阅读 · 0 评论 -
AdaptFormer:用2%参数,实现视觉Transformer的高效迁移学习,性能超越全量微调(SSv2提升10%,HMDB51提升19%)
轻量级参数适配的可行性特征保持的重要性架构设计的最优选择通用迁移学习的数学模型。原创 2024-12-25 09:56:28 · 1303 阅读 · 0 评论 -
基于MoCo v3框架的大规模视觉Transformer训练策略研究:通过冻结策略提升1-3%性能的稳定性优化方法
通过观察-假设-验证的科学方法,研究发现:patch projection层是不稳定性的根源简单的冻结策略就能解决问题自监督学习更适合大规模模型第一层的稳定性对整体训练至关重要自监督学习有更好的可扩展性简单解决方案往往更有效这种系统的观察和假设方法帮助研究者找到了问题的核心,并提出了简单而有效的解决方案。通过严谨的验证过程,确保了结论的可靠性。kNN曲线的平滑程度梯度变化的规律性如果训练过程中这两个指标没有剧烈波动,我们认为训练是稳定的。原创 2024-12-24 19:50:37 · 1082 阅读 · 0 评论 -
DINO: 基于双向知识蒸馏的视觉智能自学习方法
通过这种压缩,我们可以看到DINO方法的本质是:利用图像的内在结构来指导特征学习,而不是依赖外部标签。这种能力来自于自注意力机制在自监督学习中的特殊作用 - 当模型试图匹配不同视图的特征时,它自然地学会了关注物体的结构和边界。论文通过 DINO 证明了自监督学习可以显著提升 ViT 的性能,为解决 ViT 在视觉领域的应用问题提供了新思路。具体到DINO,我们利用同一图像的不同视图之间的一致性作为学习信号,这保留了更多的视觉信息。从论文的方法设计来看,最关键的区别在于学习信号的来源。原创 2024-12-24 11:49:48 · 1429 阅读 · 0 评论 -
MAE 随机掩码自编码器:高掩码率 + 非对称编码器-解码器架构,解决视觉数据冗余特征、计算冗余消除
75%掩码率能提升性能是因为:减少了冗余信息,迫使模型学习更全局和语义的特征表示,而不是简单依赖局部信息。论文实验表明,对比块状掩码和网格掩码,随机掩码效果最好,说明利用空间冗余是关键。实验展示MAE能从25%的信息重建合理的完整图像。“掩码自编码器”:通过掩盖(掩)部分输入,让编码器(码)自主学习(自)重建完整图像的编码方法(器)。MAE是一种视觉自监督学习方法,通过高比例掩码和非对称架构设计,实现高效的视觉表征学习。像素重建作为中间任务,最终目标是学习好的特征表示,实验证明这种设计是有效的。原创 2024-12-23 22:16:20 · 2470 阅读 · 0 评论 -
Flamingo:少样本多模态大模型
Flamingo是一个将冻结的视觉模型和语言模型桥接起来的架构,通过特殊的注意力机制实现跨模态信息融合,能够仅用少量样本就实现各种视觉语言任务。这个工作展示了如何通过架构创新和训练策略,让预训练模型在新任务上快速适应,为通用人工智能的发展提供了新思路。“火烈鸟”(Flamingo)模型像其名字一样,能够站在视觉和语言的两条腿上,灵活地在不同任务间迁移。主要背景:当前视觉和语言任务中,常见的方法需要大量标注数据和任务特定的微调训练。主要矛盾:如何在保持语言模型能力的同时,引入视觉信息的理解能力。原创 2024-12-23 16:54:26 · 2083 阅读 · 0 评论 -
LLaVA 多模态大模型:两阶段训练,实现视觉与语言模态的高效融合
这类似于只训练投影层W,保持视觉编码器和LLM不变。这种分阶段的方法既保留了原有优势(基础语言能力),又能逐步建立和优化新能力(视觉-语言理解),是一种更有效的学习策略。模型有时会将图像简单地视为独立的、零散的图像块(patches)的集合,而不是理解图像中更复杂的语义关系和整体上下文。我们提供了详细的视觉描述和空间信息作为上下文,并使用少量人工设计的示例进行few-shot学习,确保生成的指令质量。这种观察-假设-验证的分析方法帮助我们更好地理解论文的创新点和贡献,也为未来的研究提供了有价值的思路。原创 2024-12-23 15:10:37 · 3360 阅读 · 0 评论 -
【文生视频】Diffusion Transformer:OpenAI Sora 原理、Stable Diffusion 3 同源技术
特征1(模型架构):DiT采用了变换器架构,特别是在处理序列化的图像数据方面,这是因为变换器架构在捕捉长期依赖关系方面表现出色。特征2(序列化输入):通过将图像分割成小patches并将它们序列化为tokens,DiT能够有效地在变换器模型中处理图像数据。特征3(位置编码):位置编码被应用于tokens以保留空间信息,这对于保持图像中的相对位置关系至关重要。特征4(计算复杂度):通过调整补丁大小,DiT可以在保持精细度的同时增加或减少模型的计算负担(Gflops)。特征5(性能优化)原创 2024-02-25 19:56:28 · 3068 阅读 · 2 评论 -
EyeCLIP:解决眼科模型在多模态数据整合、跨模态一致性和长尾分布处理方面的局限性
使用彩色眼底照相(CFP)作为输入模态, EyeCLIP 在诊断眼科疾病方面显著优于其他模型(所有 P原创 2024-09-19 08:54:17 · 2735 阅读 · 0 评论 -
自注意力 装配 图卷积网络,解决多模态医疗数据的融合疾病预测问题(阿尔茨海默病)
所以当论文说"d=354"时,意味着每个患者都被表示为一个354维的向量,其中每个维度代表一个具体的医学测量值或指标,这些特征共同构成了疾病诊断的输入数据。这是一个融合多模态医疗数据的深度学习模型,通过图卷积网络处理患者特征,并使用自注意力机制自动评估不同类型数据的重要性,最终实现疾病预测。这种压缩揭示了论文的核心思想:通过将组合策略参数化,把"数据如何融合"这个问题转化为可学习的优化问题。这个研究是对传统多模态数据融合方法的改进,解决了数据特征丢失和权重分配不合理的问题。如何确定不同数据的重要程度?原创 2024-12-04 14:15:41 · 1127 阅读 · 0 评论 -
MMed-RAG:专为医学视觉语言模型设计的多功能多模态系统
MMed-RAG是一个医疗领域的多模态RAG系统,通过三个核心组件(领域感知、自适应检索、偏好微调)提高Med-LVLMs的可靠性。文章通过提出问题→分析挑战→提供解决方案的逻辑展开,MMed-RAG是对现有Med-LVLMs局限性的直接回应。针对Med-LVLMs的事实性幻觉(空)这一源于跨模态对齐与知识整合不足(雨)的问题。这些方向既保持了技术可行性,又具有显著的临床价值和创新性,能够真正推动医疗AI的发展。“多模态医疗检索增强生成系统"可重组为"多种模式下的医疗信息检索与生成增强系统”原创 2024-11-01 16:26:27 · 2196 阅读 · 0 评论 -
乳腺癌多模态诊断解释框架:CNN + 可解释 AI 可视化
XAI(可解释人工智能)是一套技术框架,旨在使复杂的深度学习模型决策过程变得透明和可理解,包括 Grad-CAM、LIME 和 SHAP 等方法,通过可视化和量化的方式展示模型的决策依据。论文通过将 XAI 技术与 CNN 模型结合,解决了深度学习在医疗诊断中的可信度问题,提供了一个完整的技术框架。这种系统的方法不仅让研究人员开发出了准确的诊断工具,还创建了一个数学上合理的框架来解释医学影像中AI的决策过程。“可解释人工智能"可以重组为"让人能解释的智能”,即将人工智能的决策过程变得可以被人理解和解释。原创 2024-12-18 17:42:57 · 1420 阅读 · 0 评论 -
多模态分析代理 MAIA:多智能体解决 视觉模型 黑盒问题
这可能是指一个特定的图像分割模型或方法,它使用文本提示来指导分割过程,确保神经元的选择性(neuron selectivity)与文本描述的“ground-truth”(真实情况)相匹配。: 这是一个条件性的合成神经元,它在“dog”(狗)存在的情况下,特别响应“leash”(牵引绳)的概念。通过这种方式,它可以探索和验证模型行为背后的因果关系,而不仅仅是表面的关联。例如,如果我们问它某个特定的“视觉单元”在观察 森林背景 时是如何反应的,它会设计一个实验,改变图片的背景,然后观察这个单元的反应变化。原创 2024-08-15 10:53:14 · 1236 阅读 · 0 评论 -
MMKGs:首次将多模态知识图谱用于增强LLM的多模态推理能力,高效的架构设计,同时解决幻觉和知识限制问题
例子:以论文中的例子来看,当模型需要判断"哪种鱼的嘴适合撕裂肉类"时,如果知识图谱中缺乏相关信息或检索到的是电影"大鱼"这样的无关信息,就会导致推理失败。这项研究的核心创新在于使用多模态知识图谱而不是仅文本的知识来为语言模型的推理任务提供更丰富的上下文信息。子解法2:关系图注意力网络编码(因为需要捕捉知识图谱中的复杂结构关系)问题:现有大语言模型在多模态推理时容易产生幻觉,且知识可能不足或过时。子解法1:使用多模态知识图谱(因为需要丰富的跨模态知识)子解法3:跨模态适配对齐(因为需要融合不同模态的信息)原创 2024-12-02 09:36:35 · 1434 阅读 · 0 评论 -
M3D: 基于多模态大模型的新型3D医学影像分析框架,将3D医学图像分析从“看图片“提升到“理解空间“的层次,支持检索、报告生成、问答、定位和分割等8类任务
医生在诊断时也面临类似的挑战——现有的人工智能系统主要处理平面医学图像,就像只能看照片一样,无法充分理解器官、病变的立体结构。M3D的诞生,标志着医学AI迈入了一个新时代——从看图片到读立体,从局部到整体,真正开始接近人类医生的诊断思维方式。通过这个框架,研究团队成功将3D医学图像分析从"看图片"提升到"理解空间"的层次,为医疗AI的发展开辟了新方向。通过这种分析框架,我们不仅理解了M3D系统"是什么",还理解了它"为什么这样设计"以及"将向何处发展"。数据问题:如何获取足够的3D医学图像训练数据?原创 2024-12-19 09:57:36 · 4612 阅读 · 0 评论 -
MedTsLLM:基于 LLM 实现多模态医疗时间序列分析,包含语义分割、边界检测和异常检测
这个模型的表现优于现有方法,表明它成功捕捉到了医疗数据中的基本模式和关系。这个分析遵循了从原始数据收集,通过模式发现和相关性分析,最终发展出一个可用于未来预测和分析的数学/计算模型的归纳推理过程。这个框架的创新之处在于它首次将LLM技术应用于医疗时间序列分析,并通过多模态融合提高了分析准确性。"医疗时间序列大语言模型"是一个能将医疗数据时间化、序列化,并用语言模型理解和分析的智能系统。本框架是对传统医疗数据分析方法的突破性改进,通过整合LLM技术解决了多模态数据分析的难题。原创 2024-12-16 14:06:56 · 1785 阅读 · 0 评论 -
Med-PMC:模拟医生“先问后查“,医疗个性化多模态会诊系统
通过构建一个更接近真实临床场景的评估框架,Med-PMC致力于全面评估和改进MLLMs在医疗领域的应用能力,为未来AI辅助医疗诊断提供更可靠的技术支持。Med-PMC不只是测试简单的医学问答或报告生成能力,它评估的是MLLMs在复杂临床多模态任务中的整体表现。这种方法有潜力显著提高MLLMs在真实医疗环境中的表现,并为医疗AI系统的评估和改进提供一个更加全面和动态的框架。这模拟了真实医生的诊断和治疗过程。这个系统通过结合知识图谱的结构化表示和强化学习的自适应决策能力,为Med-PMC提供了一个强大的基础。原创 2024-08-27 10:43:41 · 1300 阅读 · 0 评论 -
医学多模态人工智能的技术挑战与临床应用综述:基于432篇文献(2018-2024)的研究分析
多模态AI是一种将多源异构医疗数据进行智能整合的技术系统,通过特征提取、模态融合等方法,实现对疾病的全面认知和精准诊断。通过这种观察-假设-验证的分析框架,我们可以更好地理解多模态AI医疗应用的发展规律和关键制约因素,从而为未来研究方向提供指导。文章通过介绍多模态AI的发展背景、技术架构、应用场景和挑战,系统性地阐述了这一技术在医疗领域的应用价值和发展前景。这种多层次的分析不仅帮助我们理解多模态AI的技术本质,也揭示了其在实际应用中的挑战和机遇。如何利用多模态AI技术提升医疗诊断的准确性和可靠性?原创 2024-12-23 09:01:10 · 8173 阅读 · 0 评论