自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(49)
  • 资源 (1)
  • 收藏
  • 关注

原创 RPT:拿强化学习做 LLM 预训练

结合预训练的规模优势与强化学习的决策优势

2025-06-11 13:31:02 718

原创 推理式奖励模型:使用自然语言反馈改进强化学习效果

使用带理由的奖励模型帮助RL训练

2025-06-08 16:40:57 613

原创 LUFFY(路飞): 使用DeepSeek指导Qwen强化学习

在RL过程中加入外部强力模型,让policy在探索的同时也模仿学习

2025-06-07 23:18:17 948

原创 Qwen团队新发现:大模型推理能力的提高仅由少数高熵 Token 贡献

逻辑分叉、连词是提高推理能力的关键

2025-06-04 11:34:05 1041

原创 SPA: 把RL中的结果奖励归因成过程奖励

对长序列任务强化学习很有帮助

2025-05-30 11:31:23 1247

原创 通义实验室开源针对RAG的预训练框架

增强rag能力的预训练模型

2025-05-28 23:26:28 1139

原创 使用开源大模型,你的业务数据可能被窃取!

如何通过开源大模型窃取对手的业务数据

2025-05-25 14:53:26 887

原创 ConvSearch-R1: 让LLM适应检索器的偏好或缺陷

检索大模型需要适配检索器的缺陷

2025-05-23 21:59:45 863

原创 通过强化学习让大模型自适应开启思考模式

让大模型学会自行判断启用何种思考模式,达到最优的性能与效率

2025-05-20 22:47:03 370

原创 连续空间链式推理与SoftCoT++介绍

软思维链最新方法介绍

2025-05-20 11:31:13 987

原创 利用比较预言机处理模糊的偏好数据

舍弃偏好数据的模糊标签,使用比较预言机探索更新方向

2025-05-13 23:32:33 917

原创 在Text-to-SQL任务中应用过程奖励模型

巧妙利用CTE构建nl2sql的过程奖励函数

2025-05-12 17:22:48 1067

原创 理性地倾听与表达:检索算法的语言学改进

基于理性说话人的思想改进检索算法

2025-05-10 19:29:42 1097

原创 推测式思维树:让大模型快速完成复杂推理

中科大,华为诺亚方舟实验室,天津大学ICML 2025接收。

2025-05-08 23:34:22 1729

原创 使用频域变换轻松压缩kv-cache

在不调整位置编码的情况下轻松扩展大模型上下文,简单有效

2025-05-07 11:13:17 1165

原创 提示词压缩方法总结与开源工具包

对各类提示词压缩方法的总结

2025-05-05 22:36:13 1031

原创 上下文学习vs微调,DeepMind关于新知识注入效果的对比研究

如何提高微调知识注入的效果,缓解过拟合

2025-05-04 23:52:56 978

原创 7B模型超越GPT-4o,英伟达开源的function-calling项目

GRPO提高大模型工具调用能力

2025-05-03 20:01:07 1224

原创 把工具调用交给小模型,提高LLM-Agents性能与稳定性

解耦Agent上下文学习与记忆,实现健壮的工具使用

2025-05-02 19:12:51 1052

原创 RL不稳定?模型钻空子?利用能量函数让奖励信号更置信

基于能量模型优化奖励函数,实现简单

2025-04-25 20:21:26 866

原创 英伟达新作,自动搜索LLM预训练的最优数据配比

高效、无需领域标记、全自动地搜索出最优数据配比

2025-04-24 11:22:51 954

原创 大模型为什么会有幻觉?如何溯源造成幻觉的文本?

像调试代码一样debug出导致幻觉的元凶

2025-04-23 10:50:36 880

原创 大模型推理加速:自适应早退与动态投机长度

投机解码时,动态选择最优的退出层与草稿长度

2025-04-18 01:55:25 1028

原创 LLM-as-Judge真的更偏好AI输出?

系统性探究“自我偏好”的真实性,以及相应的优化手段

2025-04-15 22:45:28 619

原创 通过课程学习大幅提高LLM强化学习效率

为llm提供难度递进的学习目标

2025-04-12 14:59:33 1381

原创 逻辑顺畅、多剧情发展、世界观连续一致的AI写作开源项目

一个有趣的开源项目:丝滑支持多剧情发展的ai写作工具

2025-04-11 00:16:08 1316

原创 如何精准控制大模型的推理深度

不用训练,消除短推理,控制长推理

2025-04-09 14:10:46 1084

原创 华为AI-agent新作:使用自然语言生成工作流

拆分planner,大幅提高ai-agent的效果

2025-04-08 22:39:04 1217

原创 EdgeInfinite: 用3B模型处理无限长的上下文

赋予端侧设备处理无限长上下文的能力

2025-04-07 23:01:50 732

原创 不用训练,集成多个大模型产生更优秀的输出

无需训练,直接集成多个大模型,避免微调任务冲突

2025-04-06 23:02:27 860

原创 利用MOE中的冗余参数把LLM扩展成多模态

简单高效的LLM多模态改造

2025-04-02 02:22:06 1009

原创 Midjourney最新推出的大模型输出多样性提升方法

Midjourney最新推出的多样性提高方法,简单有效

2025-03-29 00:10:55 1025

原创 搞半天VLMs里的位置编码根本就没生效?

搞半天原来llava中视觉token的位置编码没起作用?

2025-03-28 01:06:54 1729

原创 Uncert-CoT: 计算不确定性判断是否启用CoT

CoT提高了大模型解决复杂问题的能力,但在实践中CoT也存在“过度思考”的问题,本文通过计算“不确定性”来决定是否有必要启用CoT,有效地改善了此问题

2025-03-26 22:34:49 349

原创 SafeMerge: 鱼与熊掌兼得的lora合并技巧

lora合并技巧,适用于需要保持某项能力不降的前提下,提高模型另一项能力的场景

2025-03-26 00:24:27 1527

原创 大模型推理加速: 使用多个异构的小模型加快投机解码

使用多个异构小模型改进投机算法

2025-03-25 01:25:41 714

原创 VideoMind:利用Chain-of-LoRA改进长视频推理

链式lora:处理复杂问题的工作流

2025-03-22 00:44:57 866

原创 HRM:分层多步奖励模型

更符合人类评审员行为习惯的奖励模型

2025-03-20 22:34:16 963

原创 正交lora:克服多任务学习过程中的知识冲突与灾难遗忘

多任务微调时,引入正交性能有效避免任务知识冲突

2025-03-19 00:49:43 1352

原创 压缩率90%效果依然坚挺?通过蒸馏kv-cache降低部署成本

通过压缩kv-cache来降低推理显存开销,90%压缩率下效果依然坚挺

2025-03-18 00:04:47 914

几个jar包:org.com、fastjson、httpclient、httpcore、jetty-util

commons-codec-1.6.jar commons-lang-2.6.jar commons-logging-1.1.1.jar fastjson-1.2.15.jar httpclient-4.2.1.jar httpcore-4.2.1.jar jetty-util-9.3.7.v20160115.jar

2019-07-25

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除