Q同学的nlp笔记-CSDN博客

原创 TORL：工具集成强化学习，让大语言模型学会用代码解题

近年来，大语言模型（LLMs）在推理能力上取得突破，但在精确计算和复杂逻辑任务中仍受限。本文提出 TORL（Tool-Integrated Reinforcement Learning），一个可扩展的强化学习框架，使基础语言模型直接通过强化学习自主学会使用代码工具来辅助推理。

2025-06-11 11:17:01 902

原创 Qwen3开源最新Embedding模型

Qwen3-Embedding 是构建于 Qwen3 基础模型上的新一代文本嵌入与重排序模型系列，显著提升了多语言理解、代码检索与复杂指令任务中的表现。该系列模型覆盖三个参数规模（0.6B、4B、8B），并通过多阶段训练策略，结合大规模弱监督合成数据、有监督微调与模型融合，最终在多个基准测试中取得了当前最优性能。

2025-06-08 14:36:08 747

原创仅用一条无标签数据，如何让大模型推理能力飙升？——One-shot Entropy Minimization 论文分享

大语言模型（LLMs）的推理能力主要依赖于如监督微调（SFT）和强化学习（RL）等后训练策略。然而，强化学习往往需要大量标注数据和精心设计的奖励信号，训练成本高昂。本文提出了一种全新的后训练范式——One-shot Entropy Minimization（EM），只需一条未标注数据和 10 次优化步骤，就能实现与强化学习相媲美甚至超越的推理性能。

2025-06-03 09:27:16 790

原创在RTX5060Ti上进行Qwen3-4B的GRPO强化微调

最近赶上618活动，将家里的RTX 4060显卡升级为了RTX 5060Ti 16GB版本，显存翻了一番，可以进行一些LLM微调实验了，本篇博客记录使用unsloth框架在RTX 5060Ti 16GB显卡上进行Qwen3-4B-Base模型的GRPO强化微调实验。

2025-05-31 20:19:19 788

昨晚Qwen3发布了完整的技术报告，介绍了最新的 Qwen3 系列模型，包含稠密架构和 MoE 架构，参数规模从 0.6B 到 235B。Qwen3 将“思考模式”（用于复杂、多步推理）和“非思考模式”（用于快速、上下文驱动的响应）整合入统一框架，无需切换模型。同时引入“思考预算”机制，用户可自适应地分配计算资源。实验评估表明，Qwen3 在代码生成、数学推理、智能体任务等多个基准测试上取得了业界领先的成果。

2025-05-22 11:10:44 995

原创 mac本地部署Qwq-32b记录

昨天看到阿里开源了Qwq-32b，号称性能可以媲美Deepseek-R1。今天晚上有空就在Mac上折腾了一下，使用ollma进行了部署，效果感觉还不错，特此记录。

2025-03-11 10:10:32 720

原创 mac本地部署Qwq-32b记录

昨天看到阿里开源了Qwq-32b，号称性能可以媲美Deepseek-R1。今天晚上有空就在Mac上折腾了一下，使用ollma进行了部署，效果感觉还不错，特此记录。

2025-03-10 10:11:37 1081

原创论文笔记：Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling

本研究探讨了使大语言模型（LLM）在测试阶段利用更多计算能力以改善输出的关键步骤，关注推理时计算的扩展，特别是研究在固定但非平凡的推理计算条件下，LLM在应对具有挑战性的提示时的性能提升幅度。现有研究对各种测试时推理方法的扩展行为知之甚少，且大部分工作给出了多种策略的负面结果。针对验证奖励模型（Verifier）进行搜索；在测试时根据提示自适应更新模型的响应分布。研究发现，不同的测试时计算扩展方法在提示难度变化时效果差异显著。

2025-02-18 10:06:27 1552 1

原创一张4060完成一个miniLLM全流程训练（一）：预训练

本文介绍一个项目MiniMind，主要帮助初学者从零开始亲手训练一个极小的语言模型，而不是仅仅进行推理！文中也给出了笔者自身的实验记录。

2025-02-17 09:51:50 559

原创 Leetcode刷题笔记6：哈希表1

当需要查询一个元素是否出现过，或者一个元素是否在集合里的时候，就要第一时间想到哈希法。本题需要一个集合来存放遍历过的元素，然后在遍历数组的时候去询问这个集合，某元素是否遍历过。此时就要选择另一种数据结构：map ，map是一种key-value的存储结构，可以用key保存数值，用value在保存数值所在的下标。它将第一个参数除以第二个参数，并返回一个包含两个值的元组，第一个值是整数除法的商，第二个值是整数除法的余数。函数是一个内置函数，用于执行整数的除法和取余运算，并以元组的形式返回结果。

2024-05-29 11:51:14 880

原创 Leetcode刷题笔记4：链表基础2

leetcode刷题笔记记录，本篇博客记录链表基础2部分的题目，主要题目包括：Python中，对于一个链表的节点定义非常简单，只要包含数据和指针字段即可，如：Leetcode 24 两两交换链表中的节点题目描述给你一个链表，两两交换其中相邻的节点，并返回交换后链表的头节点。你必须在不修改节点内部的值的情况下完成本题（即，只能进行节点交换）。示例 1：提示：这道题目还是可以通过添加一个虚拟头结点的方式完成，在head前面新建一个dummpy_head节点指向head，之后，使用三个指针，分别标记前一个

2024-05-25 10:33:39 470

原创 Leetcode刷题笔记3：链表基础1

leetcode刷题笔记记录，本篇博客记录链表基础1部分的题目，主要题目包括：链表是一种通过指针串联在一起的线性结构，每一个节点由两部分组成，一个是数据域一个是指针域（存放指向下一个节点的指针），最后一个节点的指针域指向null（空指针的意思）。链表的入口节点称为链表的头结点也就是head。常见的链表类型包括：单链表中的指针域只能指向节点的下一个节点。双链表中每一个节点有两个指针域，一个指向下一个节点，一个指向上一个节点。双链表既可以向前查询也可以向后查询。循环链表就是链表首尾相连。Python中，对于一个

2024-05-23 13:07:41 1044

原创 Leetcode刷题笔记2：数组基础2

如果只用一个for循环来表示滑动窗口的起始位置，那么如何遍历剩下的终止位置？这个题目的过程就是模拟，需要考虑好边界值条件，一个解题的关键是处理好区间选取，为了代码统一和边界值统一考虑，应选取左开右闭的区间，即每一行列都只考虑起始位置点，而不考虑终止位置点。暴力解法中一个for循环滑动窗口的起始位置，一个for循环为滑动窗口的终止位置，那么滑动窗口如何用一个for循环来完成这个操作呢。最简单的解法为暴力解法，但Leetcode上已经提示，Python的暴力解法一定会超时，所以这里使用滑动窗口来解决这个问题。

2024-05-22 16:09:34 690

原创 Leetcode刷题笔记1：数组基础1

一开始令两个指针都为0，然后，先移动fast，如果nums[fast]不是要删除的值val，那么移动slow，然后将fast位置的值赋给slow位置。双指针（Two Pointers）：指的是在遍历元素的过程中，不是使用单个指针进行访问，而是使用两个指针进行访问，从而达到相应的目的。对于第一种闭区间的情况，由于左右都可以取到，所以while中的判断条件应该是 left

2024-05-18 13:08:17 1044

原创 Phi-3：手机上就能运行的强力语言模型

本文介绍Phi-3-mini模型，拥有3.8B参数且训练样本为3.3T词元（token），其整体性能与Mixtral 8x7B和GPT-3.5等模型相媲美。Phi-3的创新完全体现在用于训练的数据集上，是phi-2所使用数据集的扩大版本，由严格筛选的网络数据和合成数据组成。该模型还进一步针对健壮性、安全性和聊天格式进行了调整。本文还提供了一些初始的参数缩放结果，使用了为4.8T词元训练的7B和14B模型，分别称为phi-3-small和phi-3-medium，两者都比phi-3-mini更加强大。

2024-05-07 14:57:51 849

原创 Phi-2：小型语言模型令人惊人的能力

与传统的网络数据相对比，生成和利用具有“教科书质量”的数据；吸收扩展规模的最佳实践，以增强整体性能。

2024-05-06 10:27:53 1809 1

原创高质量数据至关重要：phi-1.5论文笔记

本文继续探讨较小语言模型的能力，这一探索由TinyStories（只有10M参数规模，却能够产生连贯英语）开始，本文是对phi-1（仅1.3B参数但Python编码性能接近最先进水平）的后续工作。phi-1提出利用LLM生成“教科书质量”的数据作为增强学习过程的一种方式。本文聚焦于自然语言的常识推理，并创建了一个新的13亿参数的模型，命名为phi-1.5，其在自然语言任务上的性能可与大5倍的模型相媲美，并且在更复杂的推理任务（如小学数学和基本编码）上超过了大多数非前沿的LLM。

2024-04-28 14:49:59 1876 1

原创 CLIP论文笔记：Learning Transferable Visual Models From Natural Language Supervision

本文探索了是否可以将自然语言处理中任务无关的网络规模预训练的成功转移到其他领域。作者发现采用这种方法在计算机视觉领域产生了类似的行为，并讨论了这一研究方向的社会影响。为了优化它们的训练目标，CLIP模型学习在预训练期间执行多种任务。然后，可以通过自然语言提示利用这种任务学习，实现对许多现有数据集的零样本转移。在足够的规模下，这种方法的表现可以与特定任务的监督模型竞争，尽管仍有很大的改进空间。

2024-04-26 10:46:50 1422 1

原创高质量数据is all you need：Textbooks Are All You Need论文笔记

深度学习领域对缩放定律（Scaling Law）的探索导致了现有大语言模型（LLM）性能的迅速提升。本文探索了另一个可以改进的方向：数据的质量。Eldan 和 Li 最近在 TinyStories（一个高质量的合成数据集，用于教导神经网络英语）上的工作表明，高质量数据可以显著改变缩放定律的形态，潜在地使得可以用更精简的训练/模型来达到大规模模型的性能。本文展示了高质量数据甚至可以改进大型语言模型 (LLMs) 的最先进水平，同时大幅减小数据集规模和训练计算。

2024-04-25 17:22:45 1395 1

原创 Llama 3问世：迄今为止的最强开源大语言模型

最近Meta发布了其研发的第三代开源大语言模型Llama 3，并宣称Llama 3为迄今为止的最强开源大语言模型，本文对其进行简要学习记录。。

2024-04-24 10:29:49 1247

原创非root用户安装git lfs（git大文件）命令记录

最近在看LLAMA2的模型，想直接从Huggingface下载模型到本地，但是却发现服务器上没有安装git lfs命令。查询了一些资料完成了非root用户安装git lfs命令的操作，特此记录。

2024-03-25 17:52:57 947

原创论文笔记：Llama 2: Open Foundation and Fine-Tuned Chat Models

Llama 2 是之前广受欢迎的开源大型语言模型 LLaMA 的新版本，该模型已公开发布，可用于研究和商业用途。本文记录了阅读该论文的一些关键笔记。

2024-03-18 15:42:10 1817 1

原创论文笔记：Efﬁcient Training of Language Models to Fill in the Middle

本文展示了一种有效的方法，使自回归语言模型能够学习填充文本中的空白部分。这一方法基于一个简单的数据集转换策略，即将文档中部的文本移至末尾。作者通过大量研究证明，这种转换对于原始的从左至右生成模型能力没有负面影响，这一点通过多种规模的困惑度和抽样评估得到了验证。鉴于训练模型以填补中间部分的有效性、简易性和高效性，作者建议未来的自回归（AR）语言模型应默认采用此种训练方法。文章还对数据转换频率、转换结构和选择填充跨度的方法等关键超参数进行了详细剖析，并提出了一套强有力的默认设置和最佳实践指南。

2024-03-09 16:20:37 3114 1

原创从生成到调试：大型语言模型的自我演进之旅

代码生成一直是一个长期存在的挑战，应用范围广泛，包括从自然语言到代码的合成、示例编程以及代码翻译。近期的大型语言模型在这一领域取得了显著的进步，但对于复杂的编程任务，一次性生成正确的代码依然具有挑战性。因此，一些研究通过设计程序修复方法来改善代码生成的性能。即使是人类程序员，第一次尝试写出的代码也不一定准确。与其完全放弃错误代码，人们通常会检查代码并调查执行结果，然后进行更改以解决实现错误。因此，先前的工作提出了深度学习技术来修复预测的代码。

2024-03-08 18:27:06 1507

原创 Self-evolve——基于大语言模型的代码演进框架

本研究提出了一个名为Self-evolve的框架，它旨在通过大型语言模型（LLMs）实现代码生成的进化。这一框架在Text-to-Code任务中引入了一种全新的处理流程，以提高LLMs在代码生成方面的效率和准确性。在之前，尽管LLMs在代码生成方面已取得显著成效，但它们仍然面临着一次性准确生成代码的挑战。Self-evolve通过其独特的双阶段流程，有效地解决了这一问题。在第一阶段，该框架利用LLMs从输入的提示中提取知识，生成中间代码。

2024-03-07 15:54:33 1472

原创 Text-to-SQL任务中的思维链（Chain-of-thought）探索

本文系统地探讨了CoT风格提示方法，以增强LLMs在文本到SQL解析任务中的推理能力。作者设计了推理步骤，以适用于两种现有方法——思维链和从简到繁提示，并提出了新的问题分解提示方法。通过全面的实验展示了：(1) 在文本到SQL解析中，迭代式提示可能并非必要；(2) 使用详细的推理步骤（在思维链中）或中间SQL查询（在从简到繁提示中）容易出错，从而加剧了错误传播问题。本文的问题分解提示是减轻LLMs多步推理中错误传播问题的首次尝试之一，作者强调这个问题是一个有意义的未来研究方向。

2024-03-06 18:03:50 1396

原创论文笔记：Code Llama: Open Foundation Models for Code

Code Llama是开源模型Llama 2在代码领域的一个专有模型，作者通过在代码数据集上进行进一步训练得到了了适用于该领域的专有模型，并在测试基准中超过了同等参数规模的其他公开模型。

2024-03-05 11:17:55 2023 1

原创 LLM少样本示例的上下文学习在Text-to-SQL任务中的探索

本研究探索了用于文本到SQL领域语义解析任务的各种提示设计方法。本文提出了一种利用示例的SQL语法结构来选择示例演示的方法，强调多样性和相似性作为采样目标。此外，本文发现大型语言模型（LLMs）从与数据库相关的知识增强中受益。未来的研究可以基于本文的发现来检验本文方法在其他领域的可转移性。通过持续改进LLMs在语义解析方面的能力，本文旨在为开发更准确、更稳健和更易理解的问答系统做出贡献。

2024-02-07 17:54:53 1595

原创 EMNLP 2023精选：Text-to-SQL任务的前沿进展（下篇）——Findings论文解读

本文记录了今年的自然语言处理国际顶级会议EMNLP 2023中接收的所有与Text-to-SQL相关（通过搜索标题关键词查找得到，可能不全）的论文，共计12篇，包含5篇正会论文和7篇Findings论文，以下是对这些论文的略读，某几篇也有详细的笔记（见链接）。

2024-02-06 14:13:50 2106 1

原创 EMNLP 2023精选：Text-to-SQL任务的前沿进展（上篇）——正会论文解读

本文记录了今年的自然语言处理国际顶级会议EMNLP 2023中接收的所有与Text-to-SQL相关（通过搜索标题关键词查找得到，可能不全）的论文，共计12篇，包含5篇正会论文和7篇Findings论文，以下是对这些论文的略读，某几篇也有详细的笔记（见链接）。

2024-02-05 18:35:37 1460

原创从领域外到领域内：LLM在Text-to-SQL任务中的演进之路

本研究深入分析了领域内演示示例的关键方面，并确定SQL分布为关键因素。本文提出了一个新颖的演示选择框架ODIS，它利用基于SQL的检索方法结合领域外演示和领域内合成示例的优势。在不同的大型语言模型上取得的显著性能表明，与基线和最新方法相比，本文的框架非常有效。统一检索策略：将探索一个统一的检索策略，打破领域外和领域内合成数据之间的界限，实现它们之间的自动选择。提升初始模型性能：考虑使用更高性能的初始文本到SQL模型以进一步提高性能，如第5.2节通过使用oracle SQL查询所展示的。参数高效微调。

2024-02-04 16:01:52 1850

原创 QPL：一种新型的Text-to-SQL任务中间表示形式

本文提出了一种叫做Query Plan Language (QPL)的语言，用来将复杂SQL语句分解为更加简单的子语句。QPL具有以下优势：1）可以转述为简单问题，从而创建了一个复杂问题，分解问题的数据集。在这个数据集上训练，获得了一个敏感于数据库模式的数据检索问题分解器。2）QPL对于非专家处理复杂查询更易于接近，使语义解析器的输出更易于理解。

2024-02-02 11:07:33 1698

原创论文笔记：SQLPrompt: In-Context Text-to-SQL with Minimal Labeled Data

这项研究介绍了“SQLPrompt”，一种针对大型语言模型（LLMs）中的Text-to-SQL任务进行少标签数据下的上下文提示的方法。SQLPrompt通过创新的提示设计、基于执行一致性的解码策略（选择最一致的执行结果SQL），以及“MixPrompt”和“MixLLMs”方法（增加不同提示设计和基础模型中SQL提议的多样性）来提高少示例提示的能力。结果表明，SQLPrompt在少标签数据的上下文学习中表现优异，与使用数千标签数据进行微调的最新技术相比，缩小了差距。

2024-02-01 16:22:58 1297 1

原创 DAIL-SQL：LLM在Text-to-SQL任务中的详细评估

Text-to-SQL任务是将自然语言问题转换成SQL查询，这对自然语言处理和数据库领域都是一项挑战。近年来，大型语言模型（LLMs）成为Text-to-SQL任务的新范式。特别是，GPT-4实现了在Spider排行榜上85.3%的执行准确率。尽管已有研究取得进展，但LLM基础的Text-to-SQL解决方案的提示工程缺乏系统性研究。目前研究集中在问题表示、示例选择和示例组织上，以适应LLM的偏好和性能。与OpenAI LLMs相比，开源LLMs的性能和上下文理解能力相对有限，需要通过监督式微调来提升。

2024-01-31 10:48:44 3373

空空如也

空空如也