Learn Forever-CSDN博客

转载长文本预测任务使用BERT构造训练样本

在使用 BERT 处理长文本预测任务（如新闻分类、法律文书预测、长段情感分析等）时，需要特别注意 BERT 的输入长度限制和模型架构的特点。以下是构造训练样本的系统性方法，适用于各类长文本任务。

2025-08-05 09:21:43 10

原创【OpenAI API】API接口介绍

给定一个提示，该模型将返回一个或多个预测的完成，并且还可以返回每个位置的替代标记的概率。给定一个提示，该模型将返回一个或多个预测的完成，并且还可以返回每个位置的替代标记的概率。获取给定输入的矢量表示，机器学习模型和算法可以轻松使用该表示。

2025-08-04 15:57:37 144

转载 BERT的MLM任务采用80% 10% 10%的策略的原因

BERT 在预训练的 Masked Language Model（MLM）任务中，采用了 80% MASK + 10% random word + 10% unchanged 的策略，这个设计是有目的地平衡预训练和下游任务差异，以提升模型泛化能力。

2025-08-01 09:20:52 8

原创【VLLM】VLLM使用

【代码】【VLLM】VLLM使用。

2025-07-31 18:12:37 591

转载 GPT预训练模型

GPT 属于自回归语言模型（Autoregressive Language Model），目标是预测给定前文下的下一个词：它采用 Decoder-only Transformer 架构，摒弃了传统的双向编码器，仅通过自注意力机制建模前向依赖。

2025-07-31 09:49:13 14

转载【Transformer】Transformer：采用Multi-head Attention的原因和计算规则

名称说明注意力头数 h一般为 8 或 12每个头的维度 dₖ通常 dₖ = d_model / h计算过程对每个头单独计算 Self-Attention并行性所有头同时计算，适合 GPU 并行加速优点多角度理解 token 关系，增强表达力。

2025-07-31 08:58:26 30

转载【模型蒸馏】模型蒸馏概念与技术详解

模型蒸馏（Knowledge Distillation）是一种模型压缩技术，最早由Hinton等人在2015年提出。其核心思想是将大型复杂模型（称为"教师模型"）的知识迁移到更小的模型（称为"学生模型"）中，使得学生模型能够在体积更小、计算资源需求更低的情况下，尽可能地保持与教师模型相近的性能。这个过程就像是将"知识精华"从复杂模型中提取出来，浓缩到小模型中，因此形象地称为"蒸馏"。

2025-07-30 14:27:28 25

转载【MCP】MCP基本概念与核心原理详解

MCP协议通过标准化、模块化与安全设计，为AI应用提供了“万能插头”式的基础设施。无论是开发者构建复杂工作流，还是企业实现跨系统自动化，MCP均展现出强大的潜力。随着开源社区的壮大（GitHub已有超1100个项目），MCP或将成为AI时代不可或缺的数字总线。MCP开发案例及场景实践将在后续文章中进一步完善。

2025-07-30 10:27:22 23

转载 ELMo词向量模型

ELMo（Embeddings from Language Models）是 2018 年由 AllenNLP 团队提出的上下文相关词向量模型，它在当时显著提升了多个自然语言处理任务的表现，为后来的 BERT 和 GPT 等预训练模型奠定了重要基础。

2025-07-29 09:13:58 17

转载【Transformer】Transformer：self-attention公式中添加scaled的原因

在 Transformer 的 Self-Attention 中，添加 “scaled”（缩放）因子的原因主要是为了避免点积值过大导致梯度不稳定或 softmax 饱和的问题。

2025-07-29 08:59:01 20

转载加载和使用预训练模型

预训练模型是指在海量数据上提前训练好的模型，可以直接用于下游任务，如情感分类、问答、文本生成等，节省训练时间，提升精度。BERT：适合分类、问答、抽取任务GPT：适合文本生成、对话RoBERTa、DistilBERT、T5、XLNet、ERNIE 等通过预训练模型 + Transformers 工具库，即使没有强大的计算资源，也可以利用大模型完成高质量的 NLP 任务。

2025-07-28 09:01:50 15

转载 BERT 预训练模型

BERT 开启了 NLP 的新时代，是所有预训练语言模型的“奠基之作”。今天，无论你是做文本分类、情感分析、阅读理解，还是更复杂的自然语言推理，BERT 仍是你可靠的基座模型之一。

2025-07-28 08:47:08 13

转载【数据集】GLUE子任务-WNLI 数据集详解：最难的自然语言推理任务之一

WNLI 是 GLUE 基准中的一项任务，代表 Winograd Natural Language Inference，是一个极具挑战性的文本蕴涵识别任务，来源于著名的 Winograd Schema Challenge。任务目标：判断“假设”句子是否可以从“前提”句子中逻辑推导而来。它属于一种特殊的 NLI（自然语言推理）任务，但与其他任务相比，它更注重代词消解和常识推理。项目内容任务类型文本蕴涵识别（代词与常识推理）数据规模极小（<700 个训练样本）模型要求。

2025-07-25 09:10:00 11

转载【数据集】GLUE子任务-RTE 数据集详解：文本蕴涵识别的经典任务

RTE 是 “Recognizing Textual Entailment”（识别文本蕴涵）的缩写，是 GLUE 基准中的一个重要任务，最初来自一系列挑战性数据集（RTE-1 到 RTE-5）。任务目标：判断两个句子之间是否存在“蕴涵”关系。简而言之：给定：- 一段前提文本（Premise）- 一段假设句子（Hypothesis）判断：假设是否能从前提中推断出来。项目内容任务类型文本蕴涵识别（Entailment）输入格式前提 + 假设句子对标签类别数据规模。

2025-07-25 08:56:48 35

转载【数据集】GLUE子任务-QNLI 数据集详解：基于问答的自然语言推理任务

QNLI（Question Natural Language Inference）是 GLUE 基准中的任务之一，它源自 SQuAD v1.1 数据集，通过结构转化变成了一个自然语言推理（NLI）任务。本质任务：判断一个问题与一句句子之间是否构成“回答关系”。一个问题（Question）一句句子（Sentence）要求模型判断：该句子是否回答了这个问题？项目内容任务类型二分类自然语言推理（是否回答问题）来源从 SQuAD v1.1 派生输入问题 + 句子标签数据规模。

2025-07-24 11:03:28 13

转载【数据集】GLUE子任务-MNLI 数据集详解：多领域自然语言推理基准

MNLI（多领域自然语言推理）是GLUE基准的核心任务数据集，用于判断两个句子之间的逻辑关系（蕴含/中立/矛盾）。该数据集包含39万训练样本，涵盖10种文本领域，特别适合测试模型跨领域泛化能力。数据集分为匹配/不匹配子集，评估指标为准确率。研究者可通过HuggingFace加载数据，并使用BERT等模型进行微调。MNLI在问答系统、检索匹配等场景有广泛应用，是自然语言处理领域的重要基准任务。

2025-07-24 08:53:19 21

转载【数据集】GLUE子任务-STS-B 数据集详解：衡量句子之间的语义相似度

STS-B 全称是 Semantic Textual Similarity Benchmark，是由 SemEval 比赛发展而来的标准句子对语义相似度数据集，用于评估模型理解两个句子语义接近程度的能力。属于 GLUE 基准任务之一。项目内容数据集名称任务类型语义相似度回归（0~5 分）标签含义相似度得分，越高越相近使用平台GLUE、HuggingFace、SQuAD等推荐模型BERT, SBERT, SimCSE, RoBERTa 等应用方向搜索、问答、推荐、摘要匹配等。

2025-07-23 09:19:40 17

转载【数据集】GLUE子任务-QQP 数据集详解：判断两个问题是否在问同一件事

QQP 是英文全称：Quora Question Pairs由问答平台 Quora 提供，是自然语言处理任务中用于判断两句话是否语义相近（重复问题）的标准数据集。在 GLUE Benchmark 中，它是重要的句子对分类任务之一。项目内容数据集名称任务类型句子对分类（二分类）标签含义1 = 语义重复；0 = 不重复来源Quora 用户提问数据使用平台应用场景相似问句识别、问答系统、搜索推荐推荐模型BERT, RoBERTa, SimCSE, SBERT 等。

2025-07-23 08:51:54 14

转载【数据集】GLUE子任务-SST-2 数据集详解：NLP 情感分析的黄金标准

SST-2 是 GLUE 基准中的一项经典任务，全称为：Stanford Sentiment Treebank v2它来自斯坦福大学 NLP 实验室的研究成果，最初用于情感分析研究，主要目标是：判断一句英文影评的情感倾向是积极（positive）还是消极（negative）特性内容数据集名任务英文句子情感分析（二分类）标签数据来源电影评论（Rotten Tomatoes）用途GLUE 测试集之一，用于情感理解工具推荐。

2025-07-22 09:07:16 43

转载【数据集】GLUE子任务-CoLA 数据集详解：教 AI 分辨“通顺”英文

项目内容名称任务判断英文句子是否语法可接受类型二分类（Acceptable / Unacceptable）特点来自语言学论文，数据精炼、挑战性高评估应用测试模型语言结构理解能力，常用于评估 BERT、GPT 等。

2025-07-22 08:53:58 10

转载【数据集】全面了解 GLUE 数据集：自然语言理解的试金石

特性内容本质多任务自然语言理解评估平台数量共 9 个任务，涵盖分类、推理、匹配等目标测试模型的通用语言理解能力工具与 HuggingFace 集成，加载简便意义促进了 NLP 领域的统一评估和快速发展。

2025-07-21 09:05:57 30

转载【迁移学习】迁移学习理论：让AI举一反三

把在一个任务中学到的知识迁移到另一个相关但不同的任务中，从而提升新任务的学习效率和效果。举个例子：你学会了骑自行车，再学骑摩托车就容易多了，因为你已经掌握了平衡和转向的技能。这就是人类的“迁移能力”。机器学习中也一样：如果我们已经在数百万篇新闻上训练了语言模型（如 fastText、BERT），那么面对一个小型医疗文本分类问题，就可以迁移预训练的模型来加速学习、提升效果。将已有的知识有效迁移，减少新任务学习的难度与数据依赖，提升性能。

2025-07-18 08:48:03 19

转载【fastText】fastText 词向量的迁移学习

fastText 的词向量本质上是Word2Vec + 子词分片，它支持在大规模语料上快速预训练，并能无缝迁移到下游小样本任务，尤其在 OOV 场景下表现出色。

2025-07-18 08:34:56 10

转载【fastText】fastText 训练词向量

fastText 可以看作是Word2Vec + 子词分片的组合，同时保持超快的速度和小巧的文件体积。它是一个非常务实、工程化的词向量方案，尤其在海量文本和多语言环境下表现优秀。

2025-07-17 08:45:06 18

转载【fastText】fastText 文本分类

fastText是一种高效的文本分类工具，其核心原理是将词向量与线性分类器结合，通过监督学习训练。它采用简洁的文本格式（标签以__label__开头），支持快速训练和预测，适用于情感分析、新闻分类等场景。fastText优势在于训练速度快、模型体积小，支持多语言和进阶技巧如2-gram优化。工业中常用于评论分析、商品分类等低延迟需求场景。该工具通过简单接口实现高效文本分类，是处理大规模语料的理想选择。

2025-07-16 09:17:07 10

转载【fastText】fastText 工具介绍

fastText = Word2Vec + 子词建模 + 简单高效的文本分类如果你需要一个快速的、工业可用的词向量或分类器，它依然是一个非常棒的选择。

2025-07-15 09:38:51 18

转载【Transformer】Transformer 模型构建

PyTorch 内置模块极大地减少你自己写 attention、残差、layernorm 的工作。后续只需定义训练循环就能跑一个小型 Transformer 模型。可扩展到任意数据集（翻译、摘要都行）

2025-07-15 09:00:45 16

转载【Transformer】Transformer 的输出部分：从向量到词的最后一跳

步骤解释线性变换将隐藏向量映射到词表空间softmax变成概率分布采样/argmax决定下一个 token共享权重减少参数冗余提升生成质量一句话记住：Transformer 的输出部分是把深度语义向量「翻译」回人类词的最后一环，它并不复杂，但非常关键。

2025-07-10 09:00:32 42

转载【Transformer】Transformer 中的解码器：文本生成的魔术师

模块作用防止看到未来 token对齐编码器的信息FFN增强每个 token 表达能力LayerNorm + 残差稳定训练，防止梯度消失堆叠结构逐层提升生成能力可以说，Transformer 的解码器层，就是大语言模型得以顺畅“说话”的秘密所在。如果没有它，我们今天就不会有 ChatGPT、Gemini 甚至是多模态 Sora 的流畅自然输出。

2025-07-10 08:42:33 55

转载【Transformer】Transformer 中的编码器：文本理解的引擎核心

Transformer 的编码器由多个编码器层（Encoder Layer）堆叠而成。每一个编码器层都遵循一个固定的结构模式，用于对输入序列进行层层抽象、提取上下文信息。输入：一个 token 序列（经过词向量和位置编码处理）输出：一个相同长度的序列，但每个 token 的表示都蕴含了其上下文语义模块作用多头注意力捕捉 token 之间的全局上下文依赖FFN对每个 token 做非线性处理，增强表达力Add & Norm稳定训练，保持信息流堆叠结构逐层深化对文本语义的理解。

2025-07-09 09:13:49 19

转载【Transformer】理解 Transformer 中的子层连接结构：残差与规范化的协奏

残差连接（Residual Connection）规范化层（Layer Normalization）子层函数（如注意力、FFN）本体这个结构被称为 “Add & Norm”，是 Transformer 层的标准构成部分。项目说明子层连接定义残差连接 + 规范化（LayerNorm）使用位置每个注意力层和前馈层的外围结构设计目的提升训练稳定性、加快收敛、防止梯度消失变体形式模块化实现PyTorch 中可独立封装 sublayer block。

2025-07-09 08:44:31 11

转载【Transformer】Transformer 中的规范化层解析：稳定背后的关键力量

规范化（Normalization）是深度学习中的一种“标准化”技术，它通过缩放和偏移数据，使得数据在进入下一层网络之前具备更好的数值特性。在 Transformer 中，使用的是（层归一化），不同于传统 CNN 中常用的。它的特点是：对每一个样本的每一个时间步的特征维度做规范化，而不是对 batch 维度。为什么不用 BatchNorm？序列长度不固定，批次之间差异大多头注意力结构中，每个 token 独立处理推理（inference）阶段不方便使用 BN 的统计量。

2025-07-08 17:53:06 38

转载【Transformer】Transformer前馈全连接层

特征说明本质两层 MLP，用于 token 向量的非线性变换应用每层 Encoder/每个 Decoder Block 中深度可扩展为多层，或变成 MoE加速对每个 token 独立并行操作，适合 GPU相互不存在 token 间关系，是展示加工Transformer 当中的 FFN 是一个很常被忽视的模块，但是正是它提供了 Transformer 处理高维 token 的核心能力。选择合适的 FFN 结构，对模型性能有显著提升。

2025-07-08 08:54:03 23

转载【Transformer】Transformer 中的多头注意力机制：一次多视角的“聚焦力”

特性说明Q/K/V 子空间将原始特征投射到多个子空间，学习多样关注模式并行头多头并行计算，效率高、表达丰富残差整合最终拼接 + 映射，将多路信息融合输出多头注意力机制是 Transformer 成为主流 AI 架构的关键，它赋予模型多角度理解数据的能力，同时兼顾并行效率。本文从原理、代码、案例、应用层面深入剖析，帮助你掌握这颗 AI 大脑中的“聚焦引擎”。

2025-07-07 09:03:24 20

转载【Transformer】Transformer 中的注意力机制：AI大脑的聚焦之眼

给定一个查询（Query），在一堆键（Key）和值（Value）之间，通过计算相似度决定关注哪些值。这三者（Query、Key、Value）有点像是图书馆里的“检索系统”：Query（查询）：你现在要查的信息。Key（关键字）：所有可选信息的标签。Value（值）：真正包含的内容。注意力机制的核心数学公式如下：QKTQK^TQKT：查询和键的点积，表示相似度。除以dkdkdkdk：防止数值爆炸。softmax：归一化为概率。

2025-07-02 09:36:19 24

转载【Transformer】掩码（mask）张量

掩码张量是一个布尔或数值类型的张量，形状通常与注意力的输入（如查询和键）相匹配。其元素值决定了对应位置的注意力是否被激活（允许关注）或被屏蔽（忽略）。

2025-07-02 09:02:48 30

转载【Transformer】位置编码（Positional Encoding）

位置编码是Transformer的关键设计之一，为模型提供了序列中元素的位置信息，弥补自注意力机制本身缺乏顺序感的缺陷。它采用基于正弦和余弦函数构造的周期性编码，简单高效，不需额外学习。

2025-06-30 09:00:57 30

转载【Transform】Transformer模型概述

Transformer通过自注意力机制实现高效的序列建模，推动了NLP的发展，成为现代自然语言处理的核心架构之一。

2025-06-30 08:41:29 16

转载【NLP】RNN模型构建⼈名分类器

模型训练的损失降低快慢代表模型收敛程度, 由图可知, 传统RNN的模型收敛情况最好, 然后是GRU, 最后是LSTM, 这是因为: 我们当前处理的⽂本数据是⼈名, 他们的⻓度有限, 且⻓距离字⺟间基本⽆特定关联, 因此⽆法发挥改进模型LSTM和GRU的⻓距离捕捉语义关联的优势. 所以在以后的模型选⽤时, 要通过对任务的分析以及实验对⽐, 选择最适合的模型.LSTM. 构建GRU模型的类class GRU.构建传统的RNN模型的类class RNN.构建传统RNN训练函数trainRNN.

2025-06-09 12:53:05 38

转载【NLP】seq2seq模型架构实现英译法

调⽤训练函数并打印⽇志和制图损失曲线分析: ⼀直下降的损失曲线, 说明模型正在收敛, 能够从数据中找到⼀些规律应⽤于数据。过滤出符合我们要求的语⾔对对以上数据准备函数进⾏整合, 并使⽤类Lang对语⾔对进⾏数值映射。第五步: 构建模型评估函数, 并进⾏测试以及Attention效果分析.第⼆步: 对持久化⽂件中数据进⾏处理, 以满⾜模型训练要求.第三步: 构建基于GRU的编码器和解码器.第四步: 构建模型训练函数, 并进⾏训练.构建基于GRU和Attention的解码器。构建基于GRU的解码器。

2025-06-06 12:38:14 37

空空如也

空空如也