大模型最新论文-CSDN博客

原创 RPT：拿强化学习做 LLM 预训练

结合预训练的规模优势与强化学习的决策优势

2025-06-11 13:31:02 718

原创推理式奖励模型：使用自然语言反馈改进强化学习效果

使用带理由的奖励模型帮助RL训练

2025-06-08 16:40:57 613

原创 LUFFY(路飞): 使用DeepSeek指导Qwen强化学习

在RL过程中加入外部强力模型，让policy在探索的同时也模仿学习

2025-06-07 23:18:17 948

原创 Qwen团队新发现：大模型推理能力的提高仅由少数高熵 Token 贡献

逻辑分叉、连词是提高推理能力的关键

2025-06-04 11:34:05 1041

原创 SPA: 把RL中的结果奖励归因成过程奖励

对长序列任务强化学习很有帮助

2025-05-30 11:31:23 1247

原创通义实验室开源针对RAG的预训练框架

增强rag能力的预训练模型

2025-05-28 23:26:28 1139

原创使用开源大模型，你的业务数据可能被窃取！

如何通过开源大模型窃取对手的业务数据

2025-05-25 14:53:26 887

原创 ConvSearch-R1: 让LLM适应检索器的偏好或缺陷

检索大模型需要适配检索器的缺陷

2025-05-23 21:59:45 863

原创通过强化学习让大模型自适应开启思考模式

让大模型学会自行判断启用何种思考模式，达到最优的性能与效率

2025-05-20 22:47:03 370

原创连续空间链式推理与SoftCoT++介绍

软思维链最新方法介绍

2025-05-20 11:31:13 987

原创利用比较预言机处理模糊的偏好数据

舍弃偏好数据的模糊标签，使用比较预言机探索更新方向

2025-05-13 23:32:33 917

原创在Text-to-SQL任务中应用过程奖励模型

巧妙利用CTE构建nl2sql的过程奖励函数

2025-05-12 17:22:48 1067

原创理性地倾听与表达：检索算法的语言学改进

基于理性说话人的思想改进检索算法

2025-05-10 19:29:42 1097

原创推测式思维树：让大模型快速完成复杂推理

中科大，华为诺亚方舟实验室，天津大学ICML 2025接收。

2025-05-08 23:34:22 1729

原创使用频域变换轻松压缩kv-cache

在不调整位置编码的情况下轻松扩展大模型上下文，简单有效

2025-05-07 11:13:17 1165

原创提示词压缩方法总结与开源工具包

对各类提示词压缩方法的总结

2025-05-05 22:36:13 1031

原创上下文学习vs微调，DeepMind关于新知识注入效果的对比研究

如何提高微调知识注入的效果，缓解过拟合

2025-05-04 23:52:56 978

原创 7B模型超越GPT-4o，英伟达开源的function-calling项目

GRPO提高大模型工具调用能力

2025-05-03 20:01:07 1224

原创把工具调用交给小模型，提高LLM-Agents性能与稳定性

解耦Agent上下文学习与记忆，实现健壮的工具使用

2025-05-02 19:12:51 1052

原创 RL不稳定？模型钻空子？利用能量函数让奖励信号更置信

基于能量模型优化奖励函数，实现简单

2025-04-25 20:21:26 866

原创英伟达新作，自动搜索LLM预训练的最优数据配比

高效、无需领域标记、全自动地搜索出最优数据配比

2025-04-24 11:22:51 954

原创大模型为什么会有幻觉？如何溯源造成幻觉的文本？

像调试代码一样debug出导致幻觉的元凶

2025-04-23 10:50:36 880

原创大模型推理加速：自适应早退与动态投机长度

投机解码时，动态选择最优的退出层与草稿长度

2025-04-18 01:55:25 1028

原创 LLM-as-Judge真的更偏好AI输出？

系统性探究“自我偏好”的真实性，以及相应的优化手段

2025-04-15 22:45:28 619

原创通过课程学习大幅提高LLM强化学习效率

为llm提供难度递进的学习目标

2025-04-12 14:59:33 1381

原创逻辑顺畅、多剧情发展、世界观连续一致的AI写作开源项目

一个有趣的开源项目：丝滑支持多剧情发展的ai写作工具

2025-04-11 00:16:08 1316

原创如何精准控制大模型的推理深度

不用训练，消除短推理，控制长推理

2025-04-09 14:10:46 1084

原创华为AI-agent新作：使用自然语言生成工作流

拆分planner，大幅提高ai-agent的效果

2025-04-08 22:39:04 1217

原创 EdgeInfinite: 用3B模型处理无限长的上下文

赋予端侧设备处理无限长上下文的能力

2025-04-07 23:01:50 732

原创不用训练，集成多个大模型产生更优秀的输出

无需训练，直接集成多个大模型，避免微调任务冲突

2025-04-06 23:02:27 860

原创利用MOE中的冗余参数把LLM扩展成多模态

简单高效的LLM多模态改造

2025-04-02 02:22:06 1009

原创 Midjourney最新推出的大模型输出多样性提升方法

Midjourney最新推出的多样性提高方法，简单有效

2025-03-29 00:10:55 1025

原创搞半天VLMs里的位置编码根本就没生效？

搞半天原来llava中视觉token的位置编码没起作用？

2025-03-28 01:06:54 1729

原创 Uncert-CoT: 计算不确定性判断是否启用CoT

CoT提高了大模型解决复杂问题的能力，但在实践中CoT也存在“过度思考”的问题，本文通过计算“不确定性”来决定是否有必要启用CoT，有效地改善了此问题

2025-03-26 22:34:49 349

原创 SafeMerge: 鱼与熊掌兼得的lora合并技巧

lora合并技巧，适用于需要保持某项能力不降的前提下，提高模型另一项能力的场景

2025-03-26 00:24:27 1527

原创大模型推理加速: 使用多个异构的小模型加快投机解码

使用多个异构小模型改进投机算法

2025-03-25 01:25:41 714

原创 VideoMind：利用Chain-of-LoRA改进长视频推理

链式lora：处理复杂问题的工作流

2025-03-22 00:44:57 866

原创 HRM：分层多步奖励模型

更符合人类评审员行为习惯的奖励模型

2025-03-20 22:34:16 963

原创正交lora：克服多任务学习过程中的知识冲突与灾难遗忘

多任务微调时，引入正交性能有效避免任务知识冲突

2025-03-19 00:49:43 1352

原创压缩率90%效果依然坚挺？通过蒸馏kv-cache降低部署成本

通过压缩kv-cache来降低推理显存开销，90%压缩率下效果依然坚挺

2025-03-18 00:04:47 914

几个jar包：org.com、fastjson、httpclient、httpcore、jetty-util

空空如也