2024年7月11日Arxiv语言模型相关论文

属性或弃权:大语言模型作为长文档助手

原标题: Attribute or Abstain: Large Language Models as Long Document Assistants

作者: Jan Buchmann, Xiao Liu, Iryna Gurevych

机构: 德国达姆施塔特工业大学

摘要: 大语言模型可以帮助处理长文档的人类工作,但已知存在幻觉现象。归因可以增加对大语言模型响应的信任:大语言模型提供支持其响应的证据,从而增强了可验证性。现有的归因方法仅在 RAG 设置中进行了评估,在那里初始检索会影响大语言模型的性能。这与长文档设置有关,长文档设置中不需要检索,但检索可能会有所帮助。因此,缺少针对长文档的归因特定评估。为了填补这一空白,我们提出 LAB,这是一个包含6个不同长文档任务的基准测试,具有归因功能,并尝试在4个不同大小的大语言模型上使用不同的归因方法,包括提示和微调。我们发现引文,即一步生成响应和提取证据,大多数情况下表现最佳。我们调查了是否存在用于归因的“中间迷失”现象,但没有发现这一点。我们还发现证据质量可以预测简单响应数据集上的响应质量,但对于复杂响应来说并非如此,因为模型难以为复杂主张提供证据。我们发布了代码和数据以供进一步研究。

论文链接: https://arxiv.org/abs/2407.07799

社交媒体内容生成的多任务提示词学习

原标题: Multi-task Prompt Words Learning for Social Media Content Generation

作者: Haochen Xue, Chong Zhang, Chengzhi Liu, Fangyu Wu, Xiaobo Jin

机构: 西交利物浦大学 江苏 苏州

摘要: 互联网的快速发展深刻改变了人类生活。人们越来越多地在社交媒体平台上表达自己并与他人互动。然而,尽管人工智能技术已被广泛运用于生活的许多方面,但其在社交媒体内容创作中的应用仍然空白。为了解决这一问题,我们提出了一种基于多模态信息融合的新提示词生成框架,结合主题分类、情感分析、场景识别和关键词提取等多个任务,生成更全面的提示词。随后,我们使用包含一组提示词的模板来引导 ChatGPT 生成高质量的推文。此外,在内容生成领域缺乏有效和客观的评估标准的情况下,我们使用 ChatGPT 工具来评估算法生成的结果,使得对内容生成算法进行大规模评估成为可能。广泛内容生成的评估结果表明,我们的提示词生成框架相比手动方法和其他提示技术生成了更高质量的内容,同时主题分类、情感分析和场景识别显著提升了内容的清晰度及其与图像的一致性。

论文链接: https://arxiv.org/abs/2407.07771

在测试任务上进行训练会混淆评估和出现

原标题: Training on the Test Task Confounds Evaluation and Emergence

作者: Ricardo Dominguez-Olmedo, Florian E. Dorner, Moritz Hardt

机构: 马克思·普朗克智能系统研究所, 图宾根 图宾根人工智能中心 苏黎世联邦理工学院

摘要: 我们研究了大语言模型评估中的一个基本问题,我们称之为在测试任务上训练。与错误的做法如在测试数据上训练、泄漏或数据污染不同,在测试任务上训练并不是一种不端行为。相反,这个术语描述了一系列技术,用于在语言模型的预训练阶段包含与任务相关的数据。我们证明,在测试任务上训练会混淆相对模型评估和对新兴能力的声明。我们认为,一个模型系列看似优于另一个可能是由于在测试任务上训练程度不同所致。为此,我们提出了一种有效的方法,通过在评估之前在相同的任务相关数据上微调比较的每个模型来调整在测试任务上的训练。然后我们展示,一旦我们调整了在测试任务上的训练,新兴行为的实例大部分会消失。这也适用于那些无法通过评估指标选择来解释的新兴行为的报告实例。我们的工作促进了对大语言模型评估的新视角,对基准测试和新兴能力研究具有广泛的影响。

论文链接: https://arxiv.org/abs/2407.07890

WorldAPIs:世界价值多少个API?一个思维实验

原标题: WorldAPIs: The World Is Worth How Many APIs? A Thought Experiment

作者: Jiefu Ou, Arda Uzunoglu, Benjamin Van Durme, Daniel Khashabi

机构: 约翰霍普金斯大学

摘要: AI系统通过通过API调用访问的原始动作或功能来在物理环境中做出决策。尽管在现实世界中部署AI智能体涉及许多高级动作,但现有的具身模拟器提供了有限的领域显著API集。这自然引出了一个问题:一个多才多艺的具身智能体需要多少个原始动作(API),它们应该是什么样子?我们通过一个思想实验来探讨这个问题:假设wikiHow教程涵盖了各种人类编写的任务,那么覆盖这些说明所需的API空间是什么样的?我们提出了一个框架,通过将wikiHow指导与具体智能体策略相结合,迭代诱导新的API。受到大型语言模型(LLMs)在具身规划方面取得的最新成功的启发,我们提出了少样本提示,以引导GPT-4生成Python程序作为智能体策略,并通过重新使用一组种子API来引导一个API宇宙,然后在必要时制造新的API调用。这个思想实验的重点在于定义这些API,而不是它们的可执行性。我们将提出的流程应用于来自wikiHow教程的说明。在一小部分(0.5%)教程中,我们诱导出一个包含300多个API的动作空间,这些API对捕捉物理世界中丰富多样的任务是必要的。对诱导输出进行的详细自动和人工分析表明,提出的流程实现了API的有效重用和创建。此外,手动审查显示,现有的模拟器仅支持诱导API的一个小子集(前50个常用API中的9个),这促使开发富有行动性的具身环境。

论文链接: https://arxiv.org/abs/2407.07778

LLM-Based Multi-Agent Communities 中操纵知识的泛滥传播

原标题: Flooding Spread of Manipulated Knowledge in LLM-Based Multi-Agent Communities

作者: Tianjie Ju, Yiting Wang, Xinbei Ma, Pengzhou Cheng, Haodong Zhao, Yulong Wang, Lifeng Liu, Jian Xie, Zhuosheng Zhang, Gongshen Liu

机构: 上海交通大学 百川智能技术

摘要: 大语言模型(LLMs)在多智能体系统中的快速应用凸显了它们在各种应用中的印象深刻的能力,例如协作问题解决和自主谈判。然而,这些基于LLM的多智能体系统的安全影响尚未得到彻底调查,特别是涉及操纵知识传播的问题。在本文中,我们通过构建一个详细的威胁模型和一个模拟真实多智能体部署的可信平台环境来调查这一关键问题。随后,我们提出了一种新颖的两阶段攻击方法,涉及说服注入和操纵知识注入,以系统地探索操纵知识(即反事实和有毒知识)在没有明确提示操纵的情况下传播的潜力。
我们的方法利用了LLMs在处理世界知识方面的固有漏洞,攻击者可以利用这些漏洞不知不觉地传播捏造的信息。通过大量实验,我们证明我们的攻击方法可以成功地诱使基于LLM的智能体传播反事实和有毒知识,而不会在智能体通信过程中降低它们的基本能力。此外,我们展示这些操纵可以通过流行的检索增强生成框架持续存在,其中几个良性智能体存储和检索被操纵的聊天历史以供未来交互使用。这种持久性表明,即使交互结束,良性智能体仍可能继续受到操纵知识的影响。我们的发现揭示了基于LLM的多智能体系统中存在重大的安全风险,强调了对抗操纵知识传播的强大防御措施的迫切需求,例如引入“守护”智能体和先进的事实核查工具。

论文链接: https://arxiv.org/abs/2407.07791

关于言语幽默通用语义组件的心理语言学实验:系统描述和注释

原标题: Psycho-linguistic Experiment on Universal Semantic Components of Verbal Humor: System Description and Annotation

作者: Elena Mikhalkova, Nadezhda Ganzherli, Julia Murzina

摘要: 目前,关于区分幽默话语和非幽默话语的通用语义组件的客观标准正在进行讨论。在本文中,我们对我们的自主阅读系统进行了深入观察,用于幽默注释,该系统在读者逐字打开文本时收集读者的注释。该系统记录读者按下以打开下一个单词、选择类别(幽默与非幽默文本)、更改选择的按键。我们还提及了我们使用该系统进行的心理语言学实验以及在实验过程中收集的数据。

论文链接: https://arxiv.org/abs/2407.07617

一个提议的大语言模型 S.C.O.R.E. 评估框架:安全性,一致性,客观性,可复现性和可解释性

原标题: A Proposed S.C.O.R.E. Evaluation Framework for Large Language Models : Safety, Consensus, Objectivity, Reproducibility and Explainability

作者: Ting Fang Tan, Kabilan Elangovan, Jasmine Ong, Nigam Shah, Joseph Sung, Tien Yin Wong, Lan Xue, Nan Liu, Haibo Wang, Chang Fu Kuo, Simon Chesterman, Zee Kin Yeong, Daniel SW Ting

机构: 清华大学 剑桥大学 斯坦福大学

摘要: 一个全面的定性评估框架,用于在医疗保健领域对大语言模型(LLM)进行评估,超越传统准确性和数量指标的需要。我们提出了LLM评估的5个关键方面:安全性、一致性、客观性、可复现性和可解释性(S.C.O.R.E.)。我们建议S.C.O.R.E.可能成为未来基于LLM的模型的评估框架的基础,这些模型在医疗保健和临床应用中是安全、可靠、值得信赖和符合伦理的。

论文链接: https://arxiv.org/abs/2407.07666

大语言模型预训练中使用的大规模网络挖掘语料库所面临的挑战综述

原标题: A Review of the Challenges with Massive Web-mined Corpora Used in Large Language Models Pre-Training

作者: Michał Perełkiewicz, Rafał Poświata

机构: 国家信息处理研究所

摘要: 本文全面审查了使用大规模网络挖掘语料库进行大语言模型(LLMs)的预训练所面临的挑战。该审查确定了该领域的关键挑战,包括噪音(不相关或误导性信息)、内容重复、低质量或不正确信息的存在、偏见以及网络挖掘语料库中包含的敏感或个人信息。解决这些问题对于开发准确、可靠和道德负责的语言模型至关重要。通过对数据清理、预处理、偏见检测和缓解的当前方法进行审查,我们突出了现有方法的差距,并提出了未来研究的方向。我们的讨论旨在推动开发更复杂和道德负责的LLMs的进展。

论文链接: https://arxiv.org/abs/2407.07630

计算学习建构语法:现状与展望路线图

原标题: The Computational Learning of Construction Grammars: State of the Art and Prospective Roadmap

作者: Jonas Doumen, Veronica Juliana Schmalz, Katrien Beuls, Paul Van Eecke

摘要: 本文记录并审查了有关建构语法学习计算模型的最新进展。它汇集了先前关于形式-含义配对计

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

数智笔记

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值