结合预训练的规模优势与强化学习的决策优势
2025-06-11 13:31:02
718
使用带理由的奖励模型帮助RL训练
2025-06-08 16:40:57
613
在RL过程中加入外部强力模型,让policy在探索的同时也模仿学习
2025-06-07 23:18:17
948
逻辑分叉、连词是提高推理能力的关键
2025-06-04 11:34:05
1041
对长序列任务强化学习很有帮助
2025-05-30 11:31:23
1247
增强rag能力的预训练模型
2025-05-28 23:26:28
1139
如何通过开源大模型窃取对手的业务数据
2025-05-25 14:53:26
887
检索大模型需要适配检索器的缺陷
2025-05-23 21:59:45
863
让大模型学会自行判断启用何种思考模式,达到最优的性能与效率
2025-05-20 22:47:03
370
软思维链最新方法介绍
2025-05-20 11:31:13
987
舍弃偏好数据的模糊标签,使用比较预言机探索更新方向
2025-05-13 23:32:33
917
巧妙利用CTE构建nl2sql的过程奖励函数
2025-05-12 17:22:48
1067
基于理性说话人的思想改进检索算法
2025-05-10 19:29:42
1097
中科大,华为诺亚方舟实验室,天津大学ICML 2025接收。
2025-05-08 23:34:22
1729
在不调整位置编码的情况下轻松扩展大模型上下文,简单有效
2025-05-07 11:13:17
1165
对各类提示词压缩方法的总结
2025-05-05 22:36:13
1031
如何提高微调知识注入的效果,缓解过拟合
2025-05-04 23:52:56
978
GRPO提高大模型工具调用能力
2025-05-03 20:01:07
1224
解耦Agent上下文学习与记忆,实现健壮的工具使用
2025-05-02 19:12:51
1052
基于能量模型优化奖励函数,实现简单
2025-04-25 20:21:26
866
高效、无需领域标记、全自动地搜索出最优数据配比
2025-04-24 11:22:51
954
像调试代码一样debug出导致幻觉的元凶
2025-04-23 10:50:36
880
投机解码时,动态选择最优的退出层与草稿长度
2025-04-18 01:55:25
1028
系统性探究“自我偏好”的真实性,以及相应的优化手段
2025-04-15 22:45:28
619
为llm提供难度递进的学习目标
2025-04-12 14:59:33
1381
一个有趣的开源项目:丝滑支持多剧情发展的ai写作工具
2025-04-11 00:16:08
1316
不用训练,消除短推理,控制长推理
2025-04-09 14:10:46
1084
拆分planner,大幅提高ai-agent的效果
2025-04-08 22:39:04
1217
赋予端侧设备处理无限长上下文的能力
2025-04-07 23:01:50
732
无需训练,直接集成多个大模型,避免微调任务冲突
2025-04-06 23:02:27
860
简单高效的LLM多模态改造
2025-04-02 02:22:06
1009
Midjourney最新推出的多样性提高方法,简单有效
2025-03-29 00:10:55
1025
搞半天原来llava中视觉token的位置编码没起作用?
2025-03-28 01:06:54
1729
CoT提高了大模型解决复杂问题的能力,但在实践中CoT也存在“过度思考”的问题,本文通过计算“不确定性”来决定是否有必要启用CoT,有效地改善了此问题
2025-03-26 22:34:49
349
lora合并技巧,适用于需要保持某项能力不降的前提下,提高模型另一项能力的场景
2025-03-26 00:24:27
1527
使用多个异构小模型改进投机算法
2025-03-25 01:25:41
714
链式lora:处理复杂问题的工作流
2025-03-22 00:44:57
866
更符合人类评审员行为习惯的奖励模型
2025-03-20 22:34:16
963
多任务微调时,引入正交性能有效避免任务知识冲突
2025-03-19 00:49:43
1352
通过压缩kv-cache来降低推理显存开销,90%压缩率下效果依然坚挺
2025-03-18 00:04:47
914