自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(28)
  • 收藏
  • 关注

原创 【论文阅读】Thinkless: LLM Learns When to Think

总之,保留了标准 GRPO 框架的整体结构。对于每个查询,从当前策略中抽取一个 mini-batch 样本以估计标记级别的优势。为了解决模式选择和回应生成之间的不平衡,我们独立归一化与控制标记和回应标记相关的优势。这种分离允许在优化过程中显式平衡它们的贡献,从而实现更稳定和有效的训练。

2025-07-14 18:04:18 483

原创 【论文阅读】Learning When to Think: Shaping Adaptive Reasoning in R1-Style Models via Multi-Stage RL

文章的主要贡献在于提出了一种名为AutoThink的方法,该方法旨在通过微小的提示变化(例如添加<think>标签)来引导模型决定是否进行深入思考,从而在保持推理准确性的同时减少不必要的计算成本和延迟。奖励随着正确响应的长度减少,而随着错误响应的长度增加,从而鼓励简洁的成功和彻底的失败分析,如图4所示。在建立了思考和不思考模式的行为稳定性之后,第二阶段的重点是提高每个模式内的任务性能。为了促进高效的推理,正确答案不进行思考时会获得更高的奖励,而错误答案则会受到更严厉的惩罚。)时,不思考的奖励被抑制。

2025-07-14 15:40:54 567

原创 【论文阅读】Hunyuan-TurboS: Advancing LLMs through Mamba-Transformer Synergy and Adaptive Chain-of-Thought

随着大型语言模型(LLMs)的快速发展,作者介绍了Hunyuan-TurboS,这是一种新型的大型混合Transformer-Mamba专家混合模型(MoE)。它协同结合了Mamba在长序列处理方面的高效性和Transformer在上下文理解方面的优越性。Hunyuan-TurboS具有自适应的长-短链式思维(CoT)机制,能够动态地在简单查询的快速响应和复杂问题的深度“思考”模式之间切换,优化计算资源。

2025-07-14 11:07:58 888

原创 【论文阅读】Think Only When You Need with Large Hybrid-Reasoning Models

这篇论文提出了一种新型大型混合推理模型(LHRM),能够自适应地决定是否需要深入思考来回答用户查询。作者设计了两阶段训练方法:混合微调(HFT)阶段通过结合思考模式和非思考模式数据进行初步训练;混合组策略优化(HGPO)阶段采用无Critic模型的强化学习算法,通过多样本估计来优化模型的自适应推理能力。该方法在保持推理性能的同时显著提高了效率,并通过"混合准确率"新指标评估模型表现。实验表明LHRM在推理和通用任务上优于现有模型,同时降低了计算开销。

2025-07-13 20:41:23 1194

原创 【论文阅读】AdaptThink: Reasoning Models Can Learn When to Think

基于上述发现,本文提出核心研究问题:能否教会推理模型根据问题难度自适应选择Thinking或NoThinking模式,从而在不牺牲(甚至提升)性能的前提下显著提高推理效率?对简单问题优先采用NoThinking提升效率对复杂问题自动切换至Thinking模式保证准确性推理模型πθπ_θπθ​,表示可训练的参数化模型参考模型πθrefπθref​​,作为性能基准的固定模型(训练过程中不更新)奖励函数RxyR(x,y)Rxy。

2025-07-13 12:04:16 448

原创 【论文阅读】LS-Mixture SFT Eliciting Efficient Reasoning in Large Language Models

当与原始的长CoT推理示例混合时,这种组合使学生模型能够学习全面的推理模式和高效的推理捷径,从而在推理过程中生成更简洁的推理,而不牺牲准确性。LS-Mixture SFT方法的一个关键组件是保持结构的CoT重写方法,该方法将冗长的CoT轨迹转换为更简洁的版本,同时保留其核心逻辑结构和关键推理步骤。为了实现平衡思考模式,文章在推理时间和训练时间之间保持提示模板的格式一致,同时修改与思考模式相关的指令:文章将详细或简明思考的指令替换为鼓励模型进行介于这两种极端之间的“适当”思考过程的指令。

2025-07-11 13:13:28 1118

原创 【论文阅读】AdaReasoner: Adaptive Reasoning Enables More Flexible Thinking

AdaReasoner 的目标是自适应地找到给定问题𝑞𝑞q的最有效超参数配置𝑎𝑎a,使得 LLM(记为ΦΦΦ)生成正确的推理答案Φ𝑞∣𝑎Φ(𝑞|𝑎)Φq∣a。更具体地,配置𝑎𝑎a𝑎𝑡𝑎_𝑡at​:生成温度𝑎𝑝𝑎_𝑝ap​:推理指令格式𝑎𝑠𝑎_𝑠as​:推理步骤数推理步骤 (Reasoning Steps) 𝒜𝑠: 动作空间定义为 {𝑥 | 𝑥 ∈ Z, 3 ≤ 𝑥 ≤ 10},即推理步骤数在3到10之间。温度 (Temperature) 𝒜𝑡。

2025-07-09 13:05:02 927 1

原创 【论文阅读】AdaCtrl: Towards Adaptive and Controllable Reasoning via Difficulty-Aware Budgeting

如图3所示,文章引入了两个特殊的长度触发标签“[Easy]”和“[Hard]”,以更有效地利用问题难度作为控制response length的信号。当模型面对一个问题时,它会被指示生成一个以长度触发标签为前缀的response ,从而根据选择的标签来调整其后续的推理过程。通过赋予模型根据指定标签分配推理资源的能力,文章提供了一个简单的接口来控制response length:用户只需将首选的长度触发标签作为初始输入令牌。通过在线训练,模型可以更有效地评估问题的难度,并根据自身能力开发适应性的推理策略。

2025-07-08 19:11:14 892 1

原创 【论文阅读】ARM: Adaptive Reasoning Model

ARM支持四种推理格式:三种高效的格式——直接回答(Direct Answer)、短链思考(Short CoT)和代码(Code),以及一种详细的格式——长链思考(Long CoT)在这一阶段,文章使用了三个额外的数据集,这些数据集涵盖了从相对简单的常识推理任务到更复杂的数学问题的范围。为了确保生成的推理逻辑的质量,文章过滤掉那些导致错误答案的推理逻辑,最终生成的训练集包含3.0K个多项选择题和7.8K个开放形式问题,每个问题都有四种推理格式。,这些奖励用于评估模型生成的响应。对应的推理格式出现的次数,

2025-07-08 11:19:21 1131 1

原创 【论文阅读】Adaptive Deep Reasoning: Triggering Deep Thinking When Needed

模型的reasoning style 主要依赖于第一个token (e.g. <think>),但是RL算法是同时优化所有token的分布,尤其在long-chain reasoning中第一个token的权重很低,导致不能很好的优化long short chain reasoning的选择。作者提出了一种新的方法,通过监督细调和强化学习,使模型能够基于问题的复杂程度自主选择合适的推理模式(长链或短链)使用包含长链和短链推理的数据集对基础模型进行监督细调,使其具备长链和短链推理的能力。

2025-07-01 16:26:03 822 1

原创 【Ubuntu】解决EXT4-fs error (device sda2): ext4_find_entry

解决EXT4-fs error (device sda2): ext4_find_entry

2024-01-08 07:45:15 4976 8

原创 【Anaconda】解决“libGL error: MESA-LOADER: failed to open iris”问题

stackoverflow中的“libGL error: MESA-LOADER: failed to open iris”问题。而在自己创建的conda环境中的lib下出现`GLIBCXX_3.4.30’ not found 的情况。在上述解决方案中,将第一行命令的lib路径换成自己创建的conda环境lib路径,运行指令,问题解决。目前问题解决,总结一下查找资料以及解决方法。运行如下命令,发现本地支持。

2023-05-19 00:47:00 4503 5

原创 【Machine Learning 学习笔记】feature engineering中noisy feature的影响

通过本篇博客记录一下添加噪声对Lasso和SVM的影响,采用的数据集为sklearn的make_moons。

2023-01-11 03:25:42 249

原创 【Machine Learning 学习笔记】feature engineering 中不同特征处理方法比较以及sklearn中Lasso的使用

通过本篇博客记录一下使用不同方法对feature进行处理后进行监督学习的效果。特征选择(feature selection)使用sklearn的Lasso, 数据集使用sklearn的breast cancer。

2023-01-10 03:45:22 354

原创 【Machine Learning 学习笔记】Stochastic Dual Coordinate Ascent for SVM 代码实现

通过本篇博客记录一下Stochastic Dual Coordinate Ascent for SVM 代码实现,数据集使用sklearn的breast cancer。

2023-01-08 18:09:06 248

原创 【Machine Learning 学习笔记】Logistic regression 代码实现与 k-fold cross validation 应用

通过本篇博客记录一下Logistic regression的代码实现以及k-fold cross validation 的运用,数据集使用sklearn的breast cancer。

2023-01-08 03:09:13 258

原创 【Machine Learning 学习笔记】Rademacher complexity 和 VC dimension 代码实现

在中文博客中没有找到计算Rademacher复杂度和VC维的相关代码示例,本篇博客提供一个例子供大家参考,关于两者的解释可以参考其他文章。Rademacher复杂度和VC维参考Mohri等人2018年的"Foundations of Machine Learning"一书。

2023-01-03 23:20:17 507

原创 【文章阅读】Selecting, designing, and developing your questionnaire

【文章阅读 -- 问卷调查的实践指导】Selecting, designing, and developing your questionnaire一篇2004年的文章,篇幅很短,只有4页,文章的目标是提出一个实用的指南,帮助研究人员进行设计出色,管理良好,公正客观的问卷调查。文章通过问答的形式组织。

2022-09-24 05:05:00 221

原创 【报告阅读】ISO 9241-210:2019

【报告阅读】Ergonomics of human-system interaction. Part 210: Human-centred design for interactive systems (ISO 9241-210:2019)

2022-09-24 05:03:38 2220

原创 【Pycharm】 取消 python test

Pycharm 取消 python test在使用pycharm的时候偶尔遇到非常讨厌的pytest,无法进行正常的debug。在中文博客中没有找到一劳永逸的方法,最终在stackoverflow上面发现最简单的方法,传送门:https://stackoverflow.com/questions/35848064/disable-pytest-in-pycharm简单来讲,在File/Settings/Tools/Python Integrated Tools中,将Testing的Default te

2022-05-11 16:43:48 1557 1

原创 【Python-matplotlib】条形统计图

Python-matplotlib 条形统计图效果图展示如下:该代码可以处理多个实验多组观测值的展示,代码如下:import matplotlib.pyplot as pltimport numpy as npfrom matplotlib.pyplot import MultipleLocatordef plot_bar(experiment_name, bar_name, bar_value, error_value=None,): """ Args: e

2022-03-16 11:01:54 2893

原创 【Python-matplotlib】曲线下方填色的概率(高斯)分布图

Python-matplotlib 曲线下方填色的概率(高斯)分布图这里直接把代码放上来方便日后再次使用,主要是曲线下方填色比较好看import matplotlib.pyplot as pltimport numpy as npimport scipy.stats as st def plot_gaussian_distribution(means, stds, n_basesample=1000, alpha_line=0.5, alpha_fill=0.6): """

2022-03-08 09:08:10 1856 2

原创 【Django+MySQL】拆分详解图书管理系统案例

【Django+MySQL】拆分详解图书管理系统案例

2021-12-09 22:55:23 1677 1

原创 【论文阅读 Journal of Financial Economics】Surprise election for Trump connections

【论文阅读 Journal of Financial Economics】Surprise election for Trump connections标题 Surprise election for Trump connections关键点 Political connections, Event study, Firm performance, Donald Trump看到一篇比较有意思的2020年发表在Journal of Financial Economics的文章,来记录一下(顺便完成量化

2021-05-02 22:10:46 1241 2

原创 《数字电路实验》之FPGA板强化学习实验

中国科学技术大学计算机学院《数字电路实验》之FPGA板强化学习实验写在前面最近翻出来19年做数字电路实验的时在FPGA上面运行强化学习算法的实验报告,整个工程花费了大约两周的正常工作量,原始的markdown文档打包后再拿出来查阅比较麻烦,放在博客上。这个工作包含了实验环境的搭建和Qlearning算法的构建,以及一些杂七杂八的可以当时可以给实验加分的插件(如用PWM播放音乐,VGA可视化实验环境)。现在看两年以前的代码,有很多冗余的部分而且结构非常的不清晰;在处理FPGA板上随机数生成的部分也有瑕疵.

2021-04-15 19:02:59 3729 5

原创 【论文阅读】Parametrized Deep Q-Networks Learning: RL with Discrete-Continuous Hybrid Action Space

【论文阅读】Parametrized Deep Q-Networks Learning: Reinforcement Learning with Discrete-Continuous Hybrid Action Space标题 Parametrized Deep Q-Networks Learning: Reinforcement Learning with Discrete-Continuous Hybrid Action Space论文地址https://arxiv.org/abs/1810.0

2021-03-21 12:38:34 7643 11

原创 【论文阅读IJCAI-19】Hybrid Actor-Critic Reinforcement Learning in Parameterized Action Space

论文调研笔记【IJCAI-19】Hybrid Actor-Critic Reinforcement Learning in Parameterized Action Space标题 Hybrid Actor-Critic Reinforcement Learning in Parameterized Action Space会议 IJCAI-19论文地址https://arxiv.org/pdf/1903.01344.pdfhttps://www.ijcai.org/Proceedings/201

2020-12-19 22:46:28 3331 12

原创 【论文阅读ICIMIA 2020】A Comprehensive Study on Robot Learning from Demonstration

【论文阅读ICIMIA 2020】A Comprehensive Study on Robot Learning from Demonstration标题 A Comprehensive Study on Robot Learning from Demonstration会议 ICIMIA 2020论文地址 A Comprehensive Study on Robot Learning from Demonstration第一次写博客,以前组会论文阅读都是以markdown文件的形式记录,这次试

2020-12-12 16:34:41 550

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除