自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(347)
  • 资源 (4)
  • 收藏
  • 关注

原创 多模态大语言模型arxiv论文略读(142)

➡️ 研究动机:为了提高MLLMs在图表理解任务中的表现,研究团队提出了一种新的数据合成方法——Code-as-Intermediary Translation (CIT),通过代码作为中介,将图表图像转换为文本表示,从而利用大型语言模型(LLMs)的能力生成高质量的图表相关问题和答案。实验结果表明,TP-Eval能够显著提高模型在多种任务上的性能,揭示了现有评估基准中提示设计的不足,并为未来的多模态模型评估提供了新的思路。然而,现有的多模态模型评估基准存在一个关键问题,即对提示(prompt)的敏感性。

2025-06-27 09:04:03 375

原创 多模态大语言模型arxiv论文略读(141)

此外,RAG方法有效减少了模型的幻觉问题,提高了生成内容的准确性。➡️ 研究动机:为了克服现有MLLMs的计算成本高和领域适应性差的问题,研究团队提出了一种轻量级的多模态模型Mini-InternVL,该模型在参数量大幅减少的情况下,仍能保持较高的性能。➡️ 问题背景:多模态大语言模型(Multimodal Large Language Models, MLLMs)在视觉-语言任务中展现了卓越的性能,但其庞大的模型规模和高昂的计算成本限制了在消费级GPU或边缘设备上的训练和部署,阻碍了其广泛应用。

2025-06-27 09:01:46 798

原创 多模态大语言模型arxiv论文略读(140)

➡️ 问题背景:多模态大语言模型(Multimodal Large Language Model, MLLM)在视觉语言任务中展现出显著的能力,但现有的通用视觉语言模型(VLM)在医疗视觉问答(Med-VQA)任务中表现不佳,尤其是在处理细微的医学图像时。为了在保持高数据质量的同时最大化数据量,研究团队提出了自适应图像-文本质量增强器(AITQE),旨在动态评估和增强图像-文本对的质量,从而在不显著改变文本分布的情况下,最小化调整文本,以保留数据量并提高质量。

2025-06-26 08:53:27 799

原创 多模态大语言模型arxiv论文略读(139)

➡️ 实验设计:研究团队在三个流行的MLLMs上应用了γ-MoD,并在9个基准数据集上进行了广泛的实验。实验结果表明,即使是性能最好的模型(如Claude-3.5 Sonnet、GPT-4o和Gemini-1.5 Pro)在POLYMATH上的得分也仅为41%、36%和27%左右,突显了这些模型在逻辑和视觉复杂问题上的挑战。➡️ 问题背景:当前的多模态基础模型在视觉-语言理解方面取得了显著进展,但多模态大语言模型(MLLMs)在视觉内容生成方面的能力仍面临挑战,尤其是在处理不同任务所需的多粒度特征时。

2025-06-26 08:52:24 762

原创 多模态大语言模型arxiv论文略读(138)

尽管文本基础的LLMs缺乏直接的视觉输入,但它们能够有效地处理网页的文本表示,通过读取清理后的可访问性树(一种结构化和精炼的网页HTML和元数据表示),生成有意义的指令,这些指令能够捕捉页面上的内容和交互。(3)从抓取的网站中提取任务;➡️ 研究动机:为了评估MLLMs在多图像实例级任务中的能力,研究团队提出了一种新的视觉定位任务——多上下文视觉定位(Multi-Context Visual Grounding),并构建了一个新的基准数据集MC-Bench,以评估MLLMs在多图像场景中的视觉定位能力。

2025-06-25 08:50:17 847

原创 多模态大语言模型arxiv论文略读(137)

因此,研究团队设计了VidEgoThink,一个全面的以自我为中心的视频理解基准,旨在评估MLLMs在具身AI中的应用能力,特别是视频问答、层次规划、视觉定位和奖励建模四个关键任务。UI定位模块负责识别目标UI元素的坐标;➡️ 问题背景:当前的图形用户界面(GUI)自动化任务中,单轮代理(Single-turn Agent)在执行用户指定的UI环境中的动作时,如点击图标或在文本框中输入文字,表现出了中等的准确性。然而,现有的基准测试主要关注感知能力,而忽视了认知能力的评估,尤其是在文本丰富的视觉场景中。

2025-06-25 08:48:16 516

原创 多模态大语言模型arxiv论文略读(136)

然而,现有的投影器(projector)在将视觉特征转换为语言模型的嵌入空间时,往往忽略了视觉特征的固有空间差异,导致模型在处理视觉任务时的效率和理解能力受限。实验设计了不同的因素(如数据集大小、字符间距)的变化,以及不同类型的输入信息(如医生的专业、患者的年龄和性别、医生最常开具的15种药物),以全面评估模型的性能。➡️ 研究动机:为了更有效地测量MLLMs的幻觉水平,研究团队提出了LongHalQA,这是一个无需大语言模型(LLM)的幻觉评估基准,包含6000个长且复杂的幻觉文本。

2025-06-24 08:59:57 778

原创 多模态大语言模型arxiv论文略读(135)

本研究探讨了多模态大型语言模型(MLLMs)在推理过程中的计算冗余,并提出了不同的方法来跳过计算,如跳过整个块、前馈网络(FFN)或自注意力(SA)层,以及并行化某些层,如FFN和SA层。该框架包括冻结的LLM、可训练的映射模块(C)和冻结的感知编码器(EM),用于处理不同模态的输入。➡️ 研究动机:为了提高AEB系统在开放场景中的适应性,研究团队提出了Dual-AEB系统,该系统结合了先进的多模态大语言模型(MLLM)以实现对驾驶环境的深入理解,并结合传统的基于规则的快速AEB模块以确保快速响应时间。

2025-06-24 08:57:50 853

原创 多模态大语言模型arxiv论文略读(134)

➡️ 研究动机:为了克服MLLMs在个性化对话中的局限,研究团队提出了个性化视觉指令调优(Personalized Visual Instruction Tuning, PVIT),旨在使MLLMs能够在无需额外训练的情况下,与任意个体进行个性化对话。为了克服这些局限,研究团队开发了TRANS4D,旨在通过多模态大型语言模型(MLLMs)进行物理感知的场景描述和有效的转换时间规划,以及通过几何感知的4D转换网络实现复杂的场景级4D转换。最后,通过令牌路由机制简化保留的令牌,去除内部冗余。

2025-06-23 15:28:41 671

原创 多模态大语言模型arxiv论文略读(133)

评估指标包括准确性、完成度和动作效率。实验设计了不同因素(如图像分辨率、压缩的token数量)的变化,以及不同类型的感知任务(如粗粒度感知、细粒度感知和推理任务),以全面评估连接器在不同条件下的表现。为了提高MLLMs的情境安全意识,研究团队还提出了多代理情境推理管道,通过将任务分解为不同的子任务,由不同的代理执行,以提高每个子任务的准确性。通过统一的分类标准,将来自MMBench、MME和SEED-Bench三个基准测试的子任务分为粗粒度感知、细粒度感知和推理任务,并评估了不同连接器在这些任务中的性能。

2025-06-23 15:26:27 755

原创 多模态大语言模型arxiv论文略读(132)

研究团队通过评估MLLMs在不同伪造特征上的区分能力,旨在揭示这些模型的“优势”和“劣势”,并提出一种新的框架来增强MLLMs的检测和解释能力。➡️ 研究动机:为了改善Mamba模型在多模态任务中的视觉特征提取能力,研究团队提出了EMMA(Empowering Multi-modal Mamba with Structural and Hierarchical Alignment),通过结构化和层次化对齐来增强视觉特征的提取,从而提高视觉和文本模态之间的对齐质量。

2025-06-22 11:29:29 1308

原创 OmniDocBench:一键评测PDF解析算法

OmniDocBench应该是目前类型最丰富、标注粒度最详细的PDF解析评测数据集了,对于评估PDF解析算法,意义重大。最新的PP-StructureV3简介 - PaddleOCR 文档便给出了在OmniDocBench上的评测对比,可以详细看看。但是,某个算法想利用该benchmark来评测结果时,需要注意数据泄露的风险,尽量避免用该benchmark里的数据进行训练。

2025-06-22 11:14:39 1375

原创 多模态大语言模型arxiv论文略读(131)

然而,现有的数学基准测试主要集中在评估MLLMs的问题解决能力,而忽略了更复杂的场景,如错误检测,这在教育场景中尤为重要。➡️ 研究动机:为了克服这一限制,研究团队提出了一种新的方法——MLLM As ReTriever (MART),通过利用交互数据来微调MLLM检索器,使其能够全面考虑轨迹的有效性,并优先考虑对未见过的任务有用的轨迹。➡️ 方法简介:研究团队构建了一个包含2,500个高质量多模态K-12数学问题的数据集,这些问题来源于教育机构的真实学生互动数据,并经过严格的标注和丰富的元数据支持。

2025-06-20 08:52:39 511

原创 多模态大语言模型arxiv论文略读(130)

然而,这些模型主要依赖于自回归学习目标,这导致了视觉和语言模态之间的弱对齐,使得模型高度依赖于大规模的预训练数据集,这在医疗领域尤为困难,因为高质量的指令跟随数据集的构建既昂贵又耗时。➡️ 研究动机:现有的对抗攻击方法虽然能够生成视觉上逼真的对抗样本,但往往导致显著的语义变化,降低了攻击的隐蔽性。为了克服这些限制,研究团队提出了一种新的框架——语义一致的无限制对抗攻击(SCA),该框架利用有效的逆向方法和强大的多模态大语言模型(MLLM)生成对抗样本,这些样本在保持图像整体语义的同时,具有最小的语义失真。

2025-06-20 08:50:56 555

原创 多模态大语言模型arxiv论文略读(129)

此外,LEOPARD引入了一个自适应高分辨率多图像编码模块,该模块根据输入图像的原始宽高比和分辨率,动态优化视觉序列长度的分配,并通过像素洗牌技术无损压缩长视觉特征序列,以适应模型的最大序列长度限制。研究还讨论了模型的可解释性、公平性和伦理问题,以及未来研究的方向,如数据集开发、模态对齐方法的改进和伦理指南的建立。研究团队通过构建一个详细的分类树和收集训练集,旨在全面评估这些模型在ASCII艺术识别任务上的表现,揭示模型在处理模态无关视觉信息时的局限性,并探索通过监督微调等方法提升模型性能的可能性。

2025-06-19 08:54:25 897

原创 多模态大语言模型arxiv论文略读(128)

➡️ 研究动机:为了克服这些挑战,研究团队提出了一种新的解决方案LECCR(Multimodal LLM Enhanced Cross-lingual Cross-modal Retrieval),该方案利用多模态大语言模型(MLLM)生成详细的视觉描述,并将其聚合为多视图语义槽,以增强视觉特征的语义信息,从而缩小模态间的语义差距。➡️ 研究动机:为了提升MLLMs在处理文本丰富的图像理解、细粒度的视觉指代和定位、以及多图像推理等方面的能力,研究团队开发了MM1.5,这是一个新的MLLM家族。

2025-06-19 08:52:36 597

原创 多模态大语言模型arxiv论文略读(127)

因此,本研究旨在通过“调查的调查”(survey of surveys)来综合现有文献的关键见解,并将其组织成11个核心领域:通用、评估、安全、偏见、代理、应用、检索增强生成(RAG)、图、数据、持续学习和高效学习。➡️ 研究动机:为了克服CLIP模型在信息编码上的局限性,研究团队提出了一种新的方法——Diversified Multiplet Upcycling (DMU),通过将多个CLIP模型集成到一个混合专家(MoE)架构中,以捕捉多样化的、互补的信息,从而提高模型的性能和效率。

2025-06-18 08:45:15 476

原创 多模态大语言模型arxiv论文略读(126)

➡️ 实验设计:研究团队将Align2LLaVA应用于158K合成指令数据集,生成了一个压缩后的数据集Align2LLaVA-Instruct,该数据集包含30%的原始问题和30%的剩余答案,仅为原数据集的9%。此外,研究团队还提出了新的评估指标,以全面评估当前流行的多模态大语言模型(MLLMs)在第一人称视频理解中的表现。多模态大型语言模型(MLLMs)和大型视觉模型(VLMs)的出现,为解决这些问题提供了新的可能,它们能够处理和分析来自多种来源的数据,提供更全面的环境理解。

2025-06-18 08:43:11 646

原创 多模态大语言模型arxiv论文略读(125)

➡️ 实验设计:研究团队将Align2LLaVA应用于158K合成指令数据集,生成了一个压缩后的数据集Align2LLaVA-Instruct,该数据集包含30%的原始问题和30%的剩余答案,仅为原数据集的9%。此外,研究团队还提出了新的评估指标,以全面评估当前流行的多模态大语言模型(MLLMs)在第一人称视频理解中的表现。多模态大型语言模型(MLLMs)和大型视觉模型(VLMs)的出现,为解决这些问题提供了新的可能,它们能够处理和分析来自多种来源的数据,提供更全面的环境理解。

2025-06-16 09:01:23 606

原创 多模态大语言模型arxiv论文略读(124)

实验结果表明,M2PT在多个基准测试中表现出色,尤其是在零样本设置下,仅微调了0.09%的参数,性能接近全量微调的LLaVA模型。实验设计了不同的因素(如点的颜色、大小、透明度等),以及不同类型的测试数据(如真实用户绘制的不规则掩码),以全面评估EAGLE在处理不规则区域注释时的有效性和鲁棒性。➡️ 研究动机:为了深入理解医疗MLLMs的故障模式,并探索其背后的原因,研究团队开发了MediConfusion,这是一个具有挑战性的医疗视觉问答(VQA)基准数据集,旨在从视觉角度探测医疗MLLMs的故障模式。

2025-06-16 08:59:18 775

原创 多模态大语言模型arxiv论文略读(123)

➡️ 研究动机:尽管视觉提示方法在增强MLLMs的视觉能力方面取得了成功,但一些研究表明,MLLMs可能会与视觉提示不一致,这主要是由于预训练阶段缺乏多样化的视觉提示数据。➡️ 研究动机:现有的评估方法,如视觉问答(VQA),虽然能够可靠地检查模型的特定视觉能力,但通常通过多项选择题的形式进行,这使得模型更容易选择答案而非生成答案。为了克服这些局限,研究团队提出了一种新的框架CVR-LLM,通过将图像转换为详细的上下文感知描述,并利用LLMs的文本知识进行准确预测,从而提高模型在复杂视觉推理任务中的表现。

2025-06-15 16:31:53 875

原创 多模态大语言模型arxiv论文略读(122)

➡️ 实验设计:实验在VIMA和SimplerEnv两个模拟器上进行,针对LLaRA和OpenVLA两个开源VLAMs模型,设计了不同类型的物理攻击(如模糊、高斯噪声、亮度控制、基于排版的视觉提示和对抗性补丁攻击),并评估了这些攻击对模型性能的影响。➡️ 方法简介:研究团队提出了一种系统的方法,通过构建物理脆弱性评估管道(PVEP),评估了包括分布外(OOD)、基于排版的视觉提示(VP)和对抗性补丁(AdvP)攻击在内的多种物理视觉威胁对VLAMs的影响。这些步骤确保了数据集的质量和相关性。

2025-06-15 16:28:38 937

原创 多模态大语言模型arxiv论文略读(121)

➡️ 研究动机:研究团队提出,通过在MLLMs的输入中添加明确的安全要求,可以增强模型的安全意识。进一步,研究团队探索了一种称为宪法校准(Constitutional Calibration, CoCA)的技术,旨在通过校准模型的输出分布来放大安全提示的影响,使模型能够恢复其原有的安全意识,同时不损失其原有的视觉理解和推理能力。➡️ 研究动机:为了克服现有方法的局限性,研究团队提出了一种新的框架,通过微调大型语言模型(LLMs)并整合直接用户反馈,使模型能够更好地理解时尚兼容性和当前趋势,同时保持解释性。

2025-06-13 08:49:02 1021

原创 多模态大语言模型arxiv论文略读(120)

➡️ 方法简介:研究团队提出了一种系统的方法,通过构建语义地图(Semantic Map)和候选路径点地图(Candidate Waypoints Map),结合大型语言模型(LLM)和多模态大型模型(VLM)的推理能力,实现多楼层导航。➡️ 研究动机:为了解决MLLMs在自动驾驶系统中部署的计算和内存挑战,研究团队提出了一种新的方法——视频token稀疏化(Video Token Sparsification, VTS),通过利用连续视频帧中的冗余信息,减少视觉token的数量,同时保留最关键的信息。

2025-06-13 08:46:52 645

原创 多模态大语言模型arxiv论文略读(119)

➡️ 研究动机:为了定义和评估MLLMs在低级视觉感知和理解任务中的自我意识能力,研究团队提出了QL-Bench基准测试,通过构建LLSAVisionQA数据集来模拟人类对低级视觉的反应,探讨MLLMs在低级视觉感知中的自我意识。研究发现,MLLMs中的图像令牌存在明显的冗余,这不仅增加了计算负担,还影响了模型的效率。➡️ 问题背景:多模态大语言模型(MLLMs)在视觉感知和理解方面展现了显著的能力,但这些模型也存在幻觉问题,这限制了它们作为AI系统的可靠性,尤其是在涉及低级视觉感知和理解的任务中。

2025-06-12 08:57:35 1215

原创 多模态大语言模型arxiv论文略读(118)

➡️ 论文作者:King Zhu, Qianbo Zang, Shian Jia, Siwei Wu, Feiteng Fang, Yizhi Li, Shawn Gavin, Tuney Zheng, Jiawei Guo, Bo Li, Haoning Wu, Xingwei Qu, Jian Yang, Zachary Liu, Xiang Yue, J. H. Liu, Chenghua Lin, Min Yang, Shiwen Ni, Wenhao Huang, Ge Zhang。

2025-06-12 08:51:25 822

原创 多模态大语言模型arxiv论文略读(117)

➡️ 研究动机:鉴于多模态大语言模型(Multimodal Large Language Models, MLLMs)在多模态任务中的卓越表现,研究团队提出了一种新的联邦学习框架——多模态大语言模型辅助联邦学习(MLLM-LLaVA-FL),旨在利用MLLMs的强大跨模态表示能力和丰富的开放词汇先验知识,解决数据异质性和长尾分布带来的挑战,同时提高数据利用效率和服务器计算能力的利用。➡️ 研究动机:现有的MIP数据集规模较小,且主要集中在受控环境下的特定场景,这限制了MIP定位算法在真实世界中的应用。

2025-06-11 08:54:49 919

原创 多模态大语言模型arxiv论文略读(116)

为了克服这一限制,研究团队提出了OccLLaMA,一个占用-语言-行动生成世界模型,旨在通过统一的多模态词汇和增强的自回归模型,实现对视觉、语言和行动模态的统一建模,从而提升自动驾驶系统的性能。➡️ 问题背景:多模态大语言模型(Multimodal Large Language Models, MLLMs)在无OCR的文档理解任务中取得了显著的进展,但这些模型在处理高分辨率文档图像时,生成的视觉标记数量过多,导致GPU内存占用过高和推理时间过长,尤其是在多页文档理解任务中。

2025-06-11 08:52:49 684

原创 PDF识别的王?Doc2X

先来几组较难的pdf案例,看看实际效果多栏识别公式识别表格识别代码识别实现这一切的是Doc2X,由武汉智识无垠科技有限公司研发。团队核心成员均来自华中科技大学。华中科技大学的OCR一直非常强大,华为“天才少年”计划最高档薪资的廖明辉研究方向就是OCR。

2025-06-10 08:58:52 1178

原创 多模态大语言模型arxiv论文略读(115)

此外,现有的多模态大语言模型(MLLMs)虽然在一般领域取得了显著进展,但在实际临床应用中仍存在不足,主要原因是这些模型主要基于互联网上的医学教科书和文献训练,缺乏真实和全面的医疗数据。P2Med-MLLM结合了一个大语言模型(LLM,Chinese-LLaMA-2)、一个预训练的视觉编码器(CLIP)和一个感知模块,通过三个阶段的训练策略,使模型能够处理多种模态、序列和时间序列数据输入,并生成多种任务的输出。➡️ 研究动机:现有的研究和解决方案在处理多图像任务时,要么性能下降,要么计算成本过高。

2025-06-10 08:47:10 822

原创 多模态大语言模型arxiv论文略读(114)

该数据集包含21,340个标注实例,涵盖了文本和图像内容。➡️ 研究动机:为了克服现有MSD研究的局限性,研究团队构建了一个新的多模态多轮对话立场检测数据集(MmMtCSD),并提出了一个基于多模态大语言模型的立场检测框架(MLLM-SD),旨在更准确地识别用户在多模态对话中的立场。➡️ 研究动机:为了克服现有MSD研究的局限性,研究团队构建了一个新的多模态多轮对话立场检测数据集(MmMtCSD),并提出了一个基于多模态大语言模型的立场检测框架(MLLM-SD),旨在更准确地识别用户在多模态对话中的立场。

2025-06-10 08:44:43 871

原创 多模态大语言模型arxiv论文略读(113)

➡️ 实验设计:本文在多个公开数据集上进行了实验,涵盖了多模态理解(如概念识别、属性识别、动作识别、光学字符识别等)、多模态感知(如对象定位、对象关系、对象互动等)、多模态推理(如常识推理、关系推理、逻辑推理等)以及特定任务(如社会经济分析、自然科学研究、医疗应用等)。➡️ 研究动机:为了克服现有视频问答系统在多跳推理和时间定位上的局限,研究团队提出了多跳视频问答(MH-VidQA)任务,旨在要求模型不仅回答涉及多个时间间隔的视觉信息的问题,还要定位这些时间间隔作为证据。

2025-06-09 08:44:16 1174

原创 多模态大语言模型arxiv论文略读(112)

实验在多图像描述任务和故事叙述任务上进行了广泛的测试,结果表明,SAM模型在这些任务上的表现显著优于现有方法,分别在组描述任务和故事叙述任务上提高了37%和22%的CIDEr分数。➡️ 研究动机:为了克服上述限制,研究团队提出了一种新的Video-MLLM——Video-CCAM,通过在视觉编码器和大语言模型(LLM)之间的中间投影器中应用交叉注意力层,并引入因果交叉注意力掩码(CCAMs),以提高模型处理视频时的时序一致性和效率。该架构能够在不牺牲原有语言模型能力的情况下,增强模型的多模态能力。

2025-06-09 08:42:10 953

原创 多模态大语言模型arxiv论文略读(111)

➡️ 研究动机:为了弥补现有方法的不足,研究团队提出了一种新的框架CaRDiff(Caption, Rank, and generate with Diffusion),该框架通过整合多模态大语言模型(MLLM)、接地模块和扩散模型,增强了视频显著性预测的能力。为了解决这些局限性,研究团队提出了一种新的多模态代理框架,旨在适应动态的移动环境和多样化应用,通过构建灵活的动作空间和结构化的存储系统,增强代理与GUI的交互能力和对新环境任务的适应性。该框架通过多阶段模型训练方法,逐步优化模型的多图像理解能力。

2025-06-06 08:44:44 750

原创 多模态大语言模型arxiv论文略读(110)

实验设计了不同的因素(如面部表情标签的多样性、面部图像的裁剪等),以及不同类型的评估指标(如准确率、UAR、WAR等),以全面评估EMO-LLaMA在不同条件下的表现。➡️ 研究动机:为了增强MLLMs在面部表情理解方面的能力,研究团队提出了一种新的MLLM——EMO-LLaMA,通过结合预训练的面部分析网络中的面部先验知识,提高模型对人类面部信息的提取能力。➡️ 研究动机:研究团队发现,现有的MLLMs在处理几何图形时存在严重的视觉感知不足和幻觉问题,这些问题严重限制了模型在几何问题解决中的表现。

2025-06-06 08:42:48 1137

原创 多模态大语言模型arxiv论文略读(109)

➡️ 研究动机:为了解决MLLMs在处理数学图表时的不足,研究团队提出了Math-PUMA,一种基于渐进式向上多模态对齐(Progressive Upward Multimodal Alignment, PUMA)的方法,旨在通过三个阶段的训练过程增强MLLMs的数学推理能力。然而,现有的MLLMs在心脏病诊断方面表现不佳,尤其是在ECG数据分析和长文本医疗报告生成的整合上,主要原因是ECG数据分析的复杂性和文本与ECG信号模态之间的差距。

2025-06-05 08:49:33 781

原创 多模态大语言模型arxiv论文略读(108)

实验设计了不同类型的评估基准,以全面评估MLLMs在不同场景下的表现。➡️ 研究动机:为了更好地理解MLLMs的优缺点,并为未来的应用和设计提供指导,研究团队对200个MLLMs的评估基准进行了全面回顾,涵盖了感知与理解、认知与推理、特定领域、关键能力和其他模态五个主要方面。➡️ 研究动机:为了克服这些挑战,研究团队提出了一种新的视觉-语言指令调优框架CROME,该框架通过引入轻量级的门控跨模态适配器(CROME-Adapter),在保持参数效率的同时,有效结合视觉和文本表示,从而促进跨模态理解。

2025-06-05 08:47:15 1043

原创 多模态大语言模型arxiv论文略读(107)

➡️ 问题背景:近年来,大型语言模型(LLMs)和多模态大型语言模型(MLLMs)利用基于注意力机制的Transformer架构,在性能和泛化能力上取得了显著进展,覆盖了传统学习任务的广泛领域。在图表理解任务(DVQA)中,模型在推理问题上的表现最差。然而,现有的方法在处理不同类型的车牌时仍面临挑战,需要针对特定类型的车牌进行专门的开发,增加了数据收集、标注和模型训练的成本。➡️ 实验设计:研究团队在三个流行的MLLMs上进行了广泛的实验,评估了新收集的去偏数据集的有效性和ASD方法在去偏性能上的优越性。

2025-06-04 10:41:45 991

原创 多模态大语言模型arxiv论文略读(106)

VTC的训练过程无需额外的图像-文本对,实现了无需指令调优的特性。➡️ 研究动机:为了克服现有智能体在执行长期任务时的不足,研究团队提出了一种混合多模态记忆模块(Hybrid Multimodal Memory),旨在通过结构化知识和多模态经验的存储与利用,提升智能体在复杂环境中的任务执行能力。➡️ 研究动机:为了克服现有方法在处理长图像序列时的不足,研究团队提出了mPLUG-Owl3,旨在通过引入创新的超注意力块(Hyper Attention Blocks),提高模型在处理长图像序列时的效率和性能。

2025-06-04 10:41:28 978

原创 多模态大语言模型arxiv论文略读(105)

研究团队通过构建模拟数据集,评估了不同MLLMs在干扰环境中的表现,揭示了代理在面对干扰时的脆弱性,并提出了环境注入的对抗性设置,展示了这些干扰可以被恶意利用,导致不可预测的风险。➡️ 研究动机:为了进一步理解翻译-回答方法的有效性及其对MLLMs中主导语言知识提取的影响,研究团队通过类比人类认知过程中的语言触发(LTs)和领域触发(DTs),分析了现有方法的局限性,并提出了一种新的方法——原生语言提示(NatLan),以改善非主导语言问答中的知识提取。

2025-06-03 08:39:45 821

Numerical Analysis-Burden Faires 9th 数值分析

Numerical Analysis-Burden Faires 9th 数值分析(第九版)

2017-07-10

贝塞尔曲线简单应用(画T)(附有关键代码)

贝塞尔曲线简单应用(画T)(附有关键代码和exe文件)

2017-07-10

博弈论课件

ACM博弈论相关课件,涉及巴什博奕,威佐夫博弈,尼姆博弈。课件生动形象

2017-09-12

算法导论(第三版)基本完整中文版答案

算法导论(第三版)基本完整中文版答案

2017-07-10

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除