文章主要内容总结
本文介绍了首个面向金融领域大型语言模型(LLMs)的多语言、多模态、难度感知基准——MULTIFINBEN,旨在解决现有金融基准单语、单模态、任务简单化等局限性。该基准覆盖文本、视觉(图表、OCR文档)、音频(财报电话会议)三种模态,支持英语、中文、日语、西班牙语、希腊语五种语言,包含单语、双语、多语三种语言场景,涉及信息抽取、文本分析、问答、文本生成等7类金融任务,并按难度分为简单、中等、困难三级。
研究团队引入了多个创新数据集:如PolyFiQA-Easy/Expert(首个多语言金融问答数据集,需对混合语言输入进行复杂推理)、EnglishOCR/SpanishOCR(首个嵌入OCR的金融问答任务,要求从视觉文本中提取信息)。通过动态难度感知机制,MULTIFINBEN筛选出具有代表性的34个数据集,避免简单任务冗余。
对22个最先进模型的评估显示:即使是GPT-4o等强模型,在跨语言和多模态金融任务中表现仍显著不足(整体得分仅50.67%&#