
VQA
文章平均质量分 94
啊我有兔子牙
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
2023.11 IEEE 对医学视觉问答中的基准、技术和模型的批判性分析A Critical Analysis of Benchmarks, Techniques, and Models in Med
抽象的:本文全面回顾了医学 VQA 模型、结构和数据集,重点介绍了视觉与语言的结合。对 75 多个模型及其统计和 SWOT(优势、劣势、机会、威胁)分析进行了比较和分析。研究重点是普通领域的研究人员是否会影响医学领域的研究人员。根据对文本编码技术的分析,LSTM 是使用最多的方法(42%),其次是非文本方法(14%)和 BiLSTM(12%),而 VGGNet(40%)和 ResNet(22%)是最常用的视觉方法,其次是 Ensemble 方法(16%)。翻译 2024-11-24 23:07:23 · 297 阅读 · 0 评论 -
2024.3 Vision-Language Models for Medical Report Generation and Visual Question Answering: A Review
https://arxiv.org/abs/2403.02469用于医学报告生成和视觉问答的视觉语言模型:综述用于医学报告生成和视觉问答的视觉语言模型:综述Iryna Hartsock1 和 Ghulam Rasool11 H. Lee Moffitt 癌症中心和研究所机器学习系抽象医学视觉语言模型(VLMs)结合了计算机视觉(CV)和自然语言处理(NLP)来分析视觉和文本医学数据。我们的论文回顾了开发专门用于医疗保健的 VLMs 的最新进展,重点关注为医学报告生成和视觉问答(VQA)设计的模型。我们提供了原创 2024-11-24 22:06:38 · 1389 阅读 · 0 评论 -
NeurIPs 2024.10 利用多模式判定原理增强医疗 VQAEnhancing Medical VQA with Multimodal Determination Rationales
在实际医疗环境中,当面临开放式查询时,我们提出的 MedVQA 模型仍然可以根据所学的医学知识生成明智的响应。2.2 思想链最近,语言模型 Raffel et al. [2020]、Chowdhery et al. [2023] 对 NLP 进行了显著转变。为了进一步增强语言模型的推理能力,之前的工作 Cobbe et al. [2021], Wei et al. [2022] 在训练或推理阶段加入了推理原理,指导模型生成最终预测。原创 2024-11-24 21:18:19 · 1039 阅读 · 0 评论 -
【AAAI-24】BLIVA: A Simple Multimodal LLM for Better Handling of Text-Rich VisualQuestions
(Xu, Shen, and Huang 2023) 构建了一个多模态指令调优基准数据集,该数据集由 62 个不同的多模态任务组成,采用统一的 seq-to-seq 格式,并进行了微调的 OFA(Wang MIMIC-IT(Li et al.2023a)构建了一个包含 280 万多模态指令响应对的更大数据集,以训练更强的模型 Otter(Li et al.2023a)。然而,这些模型无法准确。・我们介绍了 BLIVA,它利用了学习到的查询入向量和编码的补丁嵌入向量,为解释图像中的文本提供了一种有效的方法。原创 2024-11-24 16:56:17 · 949 阅读 · 0 评论