橙子小哥的代码世界-CSDN博客

原创【知识图谱】电商行业的完整技术实践教程(5万字完结篇)

所有可能的实体对：(“Mate40”,“华为”), (“Mate40”,“手机”), (“华为”,“手机”)。送入关系模型分类，预期输出 (“Mate40”,“华为”): 品牌, (“Mate40”,“手机”): 属于类别, (“华为”,“手机”): 无关系。，定义了图谱中概念和关系的类型层次结构，相当于知识图谱的“纲领”和“schema”。训练完成后，当模型看到新的句子，比如“苹果的MacBook笔记本性能强大”，识别出实体“苹果”(品牌)和“MacBook”(产品)后，就能正确输出关系“品牌”。

2025-05-19 23:04:10 1475

原创【深度学习】03-神经网络 3-3 梯度下降的优化方法-动量算法Momentum

动量算法是一种改进的梯度下降方法，通过引入“动量”来减少震荡、加速收敛，并避免陷入局部最优解。通过结合当前和过去的梯度更新，动量算法能够有效改善传统梯度下降的缺陷，尤其在神经网络训练中表现优异。Nesterov 动量是动量算法的一种改进变种，能够进一步加速收敛，尤其在较为复杂的损失函数表面。%5Ctheta。

2024-09-24 09:41:13 2983

原创企业 RAG 系统模型选型与部署综述

例如，中国某大型银行构建了面向内部员工的知识问答助手，采用 ChatGLM2-6B 模型配合银行政策文件库，实现了对业务流程、合规要求的准确回答。其二，对于一些复杂或自定义的模型结构，转换为ONNX可能遇到不支持的算子，需要额外实现自定义Kernel或fallback，增加部署难度，并可能降低推理效率。底层为可插拔的大语言模型（支持本地部署 Qwen、Baichuan、ChatGLM 等或OpenAI云模型），中间为RAG检索增强模块（负责向量检索、结果过滤及与LLM的融合），上层为业务应用接口层。

2025-06-01 00:00:45 573

原创【大模型部署】mac m1本地部署 ChatGLM3-6B 超详细教程

在 mac m1 16G 上完全离线的本地模型目录上，跑通官方 ChatGLM3-6B

2025-05-31 22:33:27 1014

原创【大模型/MCP】MCP简介

MCP 的简介,以及优势对比与简单python案例

2025-05-29 21:09:33 1019

原创【大模型MCP】MCP 深度解析：AI 时代的「USB-C」接口——原理、对比、实战代码与行业落地

MCP 由 Anthropic 于 2024 年底提出，借助 JSON-RPC 2.0 消息格式和 WebSocket 长连接，为大模型与外部工具/数据源之间提供统一、实时、双向的调用规范。2025 年 3 月正式版发布后，OpenAI Responses API、Google Gemini SDK、Replit、Sourcegraph Cody 等均宣布兼容，形成涵盖 IDE、区块链、云服务及企业知识库的生态链。相较 REST/GraphQL，MCP 具备调用集中、实时推送、批量/通知支持与 JSON S

2025-05-29 21:00:17 901

原创【RAG】一文读懂：Tokenizer 与 Embedding 的核心区别和模型选型以及如何用原生 Encoder 生成中文语义向量（附带 C-MTEB 中文句向量模型 TOP 10 排行榜）

在构建 RAG 或检索系统时，如何选择embedding 模型，确实是一个难题，本文给出embedding 模型和Tokenizer的区别，并给出当前企业排名前十的模型以及建议。

2025-05-28 00:55:55 666

原创【大模型微调】3万字详解大模型PEFT高效微调：从 P-Tuning 到 LoRA/QLoRA/AdaLoRA/DoRA/EDoRA 附代码使用详解

随着大规模预训练模型在各行各业落地，传统的全量微调成本高昂且难以规模化。本文回顾了 2019–2025 年间参数高效微调（PEFT）的演进路径：从在每层插入“小瓶颈”适配器的 Adapter-Tuning，到影响每层注意力的 Prefix-Tuning/Prompt-Tuning，再到零延迟、可合并的低秩 LoRA 及其衍生系列（QLoRA、AdaLoRA）、最终稳定收敛的 DoRA/EDoRA。我们详细剖析了每种方法的原理、插层位置、典型超参及优缺点，并提供了 GPT-2 + 🤗 PEFT ≥ 0

2025-05-26 00:32:46 1042 1

原创【大模型提示词】面向超大规模模型的提示词工程

让同一基座模型快速“贴题”。常见做法：Prefix/Prompt-Tuning、Adapter-Tuning、LoRA 及 QLoRA。：提示工程关心“问得巧不巧”，PEFT 关心“改得省不省”；三招提示法+三类 PEFT 共同撑起 2025 年企业级 LLM 落地：前者解决“怎么问”，后者解决“如何接线”。用多任务「指令→答案」再训练一次，让模型学会“看到指令就执行”：先用大量“指令→答案”微调，让模型学会“听指令”。：把少量“示例→答案”塞进同一次输入，靠语言模型的。

2025-05-25 00:00:09 613

原创【深度学习】损失“三位一体”——从 Fisher 的最大似然到 Shannon 的交叉熵再到 KL 散度，并走进 PET·P-Tuning微调·知识蒸馏的实战

1912 Fisher 用最大似然把「让数据出现概率最高」变成参数学习；1948 Shannon 把交叉熵解释成「最短平均编码长度」；1951 Kullback-Leibler 用相对熵量化「多余信息」。三条历史线落到今天深度学习同一个损失——交叉熵。下面按时间 → 问题 → 数学 → 代码的顺序拆解，并演示它们在二/多分类、知识蒸馏（含温度 T）和 PET 软模板微调里的角色。

2025-05-24 23:42:11 849

原创【大模型微调】高效微调方法综述：P-Tuning软提示与lora低秩微调附案例代码详解

本文系统回顾了大规模预训练语言模型在2025年的主流微调策略，重点聚焦于软提示（Soft Prompt）与参数高效微调（PEFT）两大类方法。首先比较了 Prompt Tuning 与 P-Tuning 的差异，阐明了前者直接优化提示向量、后者通过小型网络对提示嵌入进行编码的技术特点。继而介绍了 LoRA（Low-Rank Adaptation）与 QLoRA 在 Transformer 层注入低秩分解和 4-bit 量化的原理与实践优势，展示了如何将参数更新量降至千分之一并大幅降低显存占用。最后结合 BE

2025-05-23 23:59:41 740

原创【大模型微调】PET,Prompt Tuning,P Tuning,Lora,Qlora 微调的简介

QLoRA在LoRA之上先将预训练模型量化至4-bit（NF4），再冻结量化权重并仅训练LoRA分支，显存占用降低近3倍，却保持与16-bit LoRA几乎相同的性能，被用于在单块48 GB GPU上微调65B参数模型（如Guanaco）至近ChatGPT水平。LoRA于2021年问世，通过冻结Transformer的主干权重，在每层线性映射旁支注入两段低秩矩阵 A 与 B，仅训练 A,B，可训练参数量减少约10,000倍，且推理阶段无额外延迟。

2025-05-23 23:14:45 779 1

原创【大模型位置编码】2万5千字详解：Transformer 位置编码的演进历程：从正余弦到可学习，到相对位置，旋转位置RoPE，线性偏置ALiBi 与多模态到deepseek R1的位置编码

Transformer 模型需要注入位置信息来理解序列顺序。从原始 Transformer 采用的正弦绝对位置编码，到 BERT/GPT 等使用的可学习绝对位置嵌入，再到 Transformer-XL、T5 引入的相对位置编码，以及近年流行的旋转位置编码 RoPE 和线性偏置位置编码 ALiBi，位置编码技术不断演进。此外，在视觉和多模态模型中还发展出 2D/3D 位置编码方案。本文将全面介绍这些位置编码方法产生的背景、数学原理、优缺点，并列举采用它们的中英文主流大模型（如 LLaMA、BLOOM、De

2025-05-22 22:23:39 1070

原创【大模型优化】深入理解 Pre-LayerNorm ：让 Transformer 训练更稳

超深 Transformer 与大语言模型（LLM）时代，归一化策略直接决定了模型能否稳定收敛、推理性能能否最大化。把归一化层从 “残差之后” 挪到 “子层之前”（Pre-LayerNorm，Pre-LN），再将传统 LayerNorm 简化为 RMSNorm——只做均方根缩放、不再减均值——是 GPT-3、LLaMA-4、DeepSeek-V3 等主流 LLM 的标准做法。Pre-LN 让每一层在进入注意力或前馈前就保持单位尺度，显著缓解梯度爆炸/消失；RMSNorm 进一步减少 7-64 % 归一化 F

2025-05-22 00:01:01 856

原创【大模型优化】transformer归一化层优化：深度解读 RMSNorm （Root Mean Square Layer Normalization，均方根层归一化）

导读：RMSNorm 把传统 LayerNorm 的“减均值（centering）+ 除标准差（scaling）”简化为“直接除以向量均方根 (Root Mean Square, RMS，均方根)”。这一改动让归一化既更省算又同样稳定，因而成为 LLaMA-2/3/4、DeepSeek-V3 等主流大语言模型的默认配置。本文从数学原理、效率优势、典型落地案例到工程迁移步骤，全方位讲透为什么要用 RMSNorm、何时用 RMSNorm、怎么用 RMSNorm。

2025-05-21 23:36:57 984

原创【大模型优化】Multi-Query Attention：传统自注意力（ Self-Attention）优化显存和加速方案

Multi-Query Attention 通过共享 Key / Value、仅为每个头保留独立 Query，使注意力计算的时间复杂度不变、显存使用与 I/O 成本成倍下降；在 GPT-NeoX-20B 长序列基准中将推理速度提升 30-40%，显存削减约 60%。

2025-05-21 23:18:24 1059

原创【大模型优化】FlashAttention：传统自注意力（ Self-Attention）优化加速实现

FlashAttention 是一套专为 GPU 优化的精确自注意力（Self-Attention）实现，通过“输入/输出感知”（IO-awareness）和块化（Tiling）策略，利用片上 SRAM 缓存大幅降低对高带宽显存（HBM）的访问，进而在保持数值精度的前提下实现 1.5×–3× 的训练与推理速度提升，同时将显存峰值降低 50% 以上。本文从背景动机、核心优化点、使用案例、性能评测及未来演进等方面，深入剖析 FlashAttention 的设计与应用，并给出完整的教程示例代码，帮助读者快速上手

2025-05-21 22:51:35 817

原创【大模型优化】为什么要用“人类反馈强化学习（RLHF）”以及它的大致流程

在 RLHF（Reinforcement Learning from Human Feedback）的流程中，“重复上述过程多次” 指的并不是把监督微调（SFT）和奖励模型训练（RM）也都重新跑一遍，而是指在第三阶段——也就是使用奖励模型＋PPO 来对策略模型（policy）进行强化学习微调（RFT）的循环过程不停地迭代。具体来说，整个 RLHF 通常分三大步：1. 监督微调（Supervised Fine-Tuning, SFT）：用人工编写或标注的示例教会模型基本的问答格式和初步能力，一次性

2025-05-21 20:52:39 526

原创【大模型】深入浅出 MoE 模型：从传统 Transformer 到 DeepSeek-V2 的稀疏专家解析

MoE 是一种将多个专门化子模型（专家）组合在一起，并使用一个门控函数（gating）为每个输入动态分配最合适专家的方法，能够高效学习复杂数据分布。在深度学习中，Mixture-of-Experts 通常将原本在单一路径上执行的前馈网络（FFN）拆分为 n 个并行专家，每个专家拥有独立参数集，门控网络根据输入分配稀疏激活模式。

2025-05-21 20:14:28 869

原创【大模型优化】KV 缓存与 MLA（Multi‐Head Latent Attention）压缩之间的关系，以及它们在 Decoder-Only MoE 模型中的协同方式

KV缓存技术在自回归生成模型中扮演着关键角色，通过存储历史token的Key/Value矩阵，避免了重复计算，显著降低了推理复杂度。然而，随着上下文长度的增加，缓存体量线性增长，成为硬件存储和通信的瓶颈。MLA（Multi-Head Latent Attention）技术通过低秩投影将全维度的K/V矩阵压缩为较小的潜在矩阵，极大减少了缓存体积和通信开销。将MLA与KV缓存结合，不仅保持了生成质量，还将显存占用降至原先的6.7%，并提升了推理吞吐率5.8倍。此外，MLA与MoE（Mixture-of-Expe

2025-05-21 19:52:57 785

原创【大模型】GPT 等decoder系列常见的下游任务

本文介绍了一种基于Transformer（如GPT/Decoder-Only模型）的统一架构，用于处理多种自然语言处理（NLP）任务。核心思路是使用同一个Transformer作为特征抽取器，通过在输入端拼接不同格式的token序列（如Start、Delim、Extract等特殊标记），并在输出端接上任务特定的小头（task-specific head），微调时仅训练这些新加层。文章通过四个例子（文本分类、文本蕴涵、文本相似度、多选/常识推理）展示了如何通过调整输入序列和输出头来适配不同任务。这种方法的优势

2025-05-21 18:25:09 964

原创【深度学习】bert 四类最常见的下游任务

BERT 输出每个 token 的向量，再在每个向量后面接一个分类层（linear＋Softmax），输出 O/B-PER/B-LOC…把预训练的 BERT＋上述小头（task head）一块送入数据，用较低的学习率微调几轮，就能在各种下游任务上轻松跑出 SOTA 水平。在最前面加一个特殊的 [CLS] Token，后面跟上两个句子中所有的词和一个分隔符 [SEP]；BERT 编码器跑完以后，取最左边 [CLS] 对应的输出向量（黄色的 E[CLS]）BERT 编码后，不是只取一个 [CLS]，而是对。

2025-05-20 23:51:44 276

原创【深度学习】BERT 作为Transformer的Encoder 为什么采用可学习的位置编码

本文探讨了BERT模型在位置编码上选择可学习（learned）位置嵌入而非原始Transformer中的正弦/余弦（sinusoidal）编码的原因。主要分析了BERT选择learned positional embeddings的四大核心原因：实现与推理效率、固定最大长度、领域自适应能力以及参数代价微小。通过实验和社区实证，本文对比了两种编码方式在下游任务中的性能差异，发现learned编码在性能和资源消耗上更具优势。此外，本文还对比了其他主流模型如GPT系列在位置编码上的选择，指出BERT的设计选择符合

2025-05-20 23:41:06 763

原创【大模型优化】超长文本注意力机制如何突破传统 O(n²) 瓶颈

文章探讨了在超长文本生成与预测中，如何通过改进注意力机制来突破传统O(n²)的计算瓶颈。传统的Transformer模型在处理长序列时，由于每个Token需要与所有其他Token计算注意力分数，导致时间和内存复杂度极高，难以在常规硬件上运行。为了解决这一问题，研究者提出了多种高效注意力算法，包括IO感知、稀疏化/线性化以及层次化/记忆增强注意力机制。这些方法显著降低了计算和存储开销，使得部分模型能够处理100K级以上的上下文。具体技术包括FlashAttention系列、稀疏注意力变体如Longformer

2025-05-20 22:48:45 288

原创【大模型】大语言模型的评估指标

统计参考文本中的所有 n-gram 总数，以及这些 n-gram 在机器生成文本中被“召回”了多少，并以召回率形式给分（召回率＝召回 n-gram 数／参考文本中 n-gram 总数）。：统计译文中每个 n-gram 在参考译文中出现的次数（最多算参考中出现次数），并除以译文中该 n-gram 的总数，得到每个阶数的匹配度。困惑度（PPL）是衡量语言模型预测下一个词不确定性的指标，本质上是测试集上交叉熵的指数形式，值越低说明模型越不“困惑”，预测越准确。支持多种子指标，更灵活。

2025-05-20 22:44:28 804

原创【知识图谱】电商行业的完整问答系统技术实践教程

知识图谱（Knowledge Graph）是人工智能领域的重要技术，由谷歌于2012年提出，广泛应用于搜索、自然语言处理、智能助手和电子商务等领域。知识图谱通过图结构表示知识，节点代表实体或概念，边代表实体间的关系。其核心技术包括数据获取、信息抽取、知识表示、知识融合和图数据库存储与查询。本文以电商行业为例，详细介绍了知识图谱的构建流程，包括数据收集与标注、实体识别与关系抽取模型训练、知识图谱构建与可视化、接口开发与部署等。文章还探讨了知识图谱的技术难点与未来趋势，如与大语言模型的融合、图神经网络的应用等，

2025-05-19 18:49:16 617

原创【知识图谱】Neo4j 图数据库简介

本文全面介绍了Neo4j图数据库的核心概念、安装配置、Cypher查询语言以及性能优化与集群部署等实用内容。Neo4j作为专为关联密集型数据设计的图数据库，通过节点、关系和属性高效表达复杂网络结构。文章详细讲解了Neo4j的社区版和企业版区别，并提供了Windows环境下的安装与配置指南。Cypher语言的基础与进阶用法涵盖了节点和关系的创建、查询、更新、删除等操作，以及常用函数与聚合。此外，文章结合电商推荐和社交网络分析等典型场景，展示了Neo4j的实际应用。最后，性能优化部分提供了内存配置、查询优化和批

2025-05-15 21:58:06 701

原创【知识图谱】从规则到大模型：知识图谱信息抽取实体NER与关系RE任务近10年演进发展详解

本文回顾了关系抽取与实体抽取领域的经典与新兴模型，清晰地梳理了它们的出现时间与核心创新，并给出在 2025 年不同资源与场景下的最佳实践推荐。文章引用了 BiLSTM‑CRF、BiLSTM‑CNN‑CRF、SpanBERT、LUKE、KnowBERT、CasRel、REBEL、UIE 等模型的原始论文与权威来源，帮助读者全面、系统地理解信息抽取技术的发展脉络与应用指南。

2025-04-22 00:00:27 1032

原创【深度学习】从零开始构建 Transformer：完整代码、原理解析：《Attention Is All You Need》

本文全面解析了 Transformer 模型的原理与实现，详细介绍了模型背景、核心技术、各模块设计及代码实现。文章从词嵌入、位置编码、注意力机制、多头注意力、前馈网络、层归一化到残差连接，逐层剖析 Transformer 模型的设计思路，并提供了完整的 PyTorch 代码实现。文中还讨论了掩码生成和参数初始化的细节，为读者深入理解 Transformer 模型及其优化提供了实战指南。无论你是 NLP 新手还是深度学习专家，都能从中获得启发，助力你在实际项目中成功应用 Transformer 模型。

2025-03-30 00:45:03 845

原创【深度学习】模型剪枝代码详解

模型减枝

2025-03-14 00:21:44 112

原创【深度学习】知识蒸馏代码详解

T 让数据更加平滑，大的值缩小，小的值变大，T越大，越平滑。

2025-03-13 03:11:54 218

原创【深度学习CV】【图像分类】从CNN(卷积神经网络)、ResNet迁移学习到GPU高效训练优化【案例代码】详解

本文详细介绍了三种不同的方法来训练卷积神经网络进行 CIFAR-10 图像分类任务，帮助读者从零开始学习如何设计和优化深度学习模型。首先，我们通过手工设计一个卷积神经网络并进行训练，讲解每个层次的作用和设计思想；接着，我们使用一个开源模型 ResNet34，并对其进行微调以适应我们的数据集；最后，我们通过一系列高效的训练技巧，显著提高训练效率，减少训练时间。最终，您将不仅能实现这一目标，而且能够举一反三，设计自己的模型，提升模型效率。

2025-03-06 00:00:16 1260

原创【卷积神经网络】【图像分类】【实战案例】全流程图像分类实战：手工设计CNN、ResNet迁移与高效训练优化详解

有人说为什么不用yolo v8，yolo v10系列。

2025-03-05 23:58:16 118

原创【区块链】web3.0简介

Web3.0 是基于区块链及相关技术打造的全新互联网架构，旨在通过去中心化和开放性的方式，将数据、身份和数字资产的控制权还给用户，从而打破传统平台的垄断。这一概念不仅涉及去中心化金融、NFT、DAO 和元宇宙等热门领域，同时也面临扩展性、用户体验及监管等挑战。虽然 Web3.0 目前仍处于发展初期，但它已经引发了全球科技、投资和学术界的广泛关注，被视为可能重塑未来互联网的重要方向。

2025-03-02 23:56:48 1272

原创【Linux】Vim 常用快捷键大全：跳转、编辑、查找替换全解析

Vim 是一款非常强大的文本编辑器，许多程序员和系统管理员都离不开它。本文详细介绍了 Vim 编辑器中的常用快捷键和命令，从基本模式、光标移动、编辑操作到查找替换，再到文件保存等常用操作，帮助你快速上手并提升编辑效率。无论你是 Vim 新手还是资深用户，都能从中找到提升效率的技巧。阅读本文后，你将熟悉 Vim 的各种操作，让编程、写作变得更加高效！

2025-03-02 21:23:42 1050

原创【Linux】在 macOS 使用 .pem 私钥免密登录腾讯云服务器

本文详细介绍了如何在 macOS 系统中使用腾讯云下发的 .pem 私钥文件进行 SSH 免密登录。内容涵盖了如何将私钥文件安全地放置到 ~/.ssh/ 目录、设置适当的文件权限、使用私钥连接远程服务器以及如何配置 SSH 配置文件简化登录流程。此外，文章还解答了使用过程中常见的问题，如为什么需要 chmod 400、私钥文本内容的解释、以及 Windows 环境下的转换问题等。希望通过本文，读者能够快速掌握密钥对登录的相关操作，提升云服务器管理的安全性与效率。

2025-03-01 22:39:23 1151

原创【深度学习】【文本生成】循环神经网络案例讲解-基于 PyTorch 的中文歌词生成——RNN，LSTM,GRU 从数据预处理到预测全流程详解

本文详细介绍了如何利用 PyTorch 构建一个简单的中文歌词生成系统。文章从数据预处理、词表构建、数据集与 DataLoader 制作，到基于 RNN 的模型搭建、训练及预测全过程进行了讲解。同时，对项目中可能的改进方向如使用 LSTM/GRU、多层 RNN、采样策略等进行了讨论。本文适合有一定深度学习基础、希望快速上手文本生成任务的同学参考学习。

2025-02-28 23:21:07 1604 1

原创【深度学习】循环神经网络（RNN）及其改进：LSTM 与 GRU 代码实践以及常见问题

本文详细介绍了循环神经网络（RNN）在处理长序列时存在的梯度问题，并重点解析了 LSTM 与 GRU 的改进原理。通过对比 RNN、LSTM 与 GRU 的结构、输入输出形式以及训练和预测过程中的差异，帮助读者更好地理解它们在捕捉长程依赖和稳定训练方面的优势。同时，文章还讨论了如何通过梯度裁剪、合理初始化等方法修复梯度爆炸问题。

2025-02-28 22:48:52 1158

原创【随想笔记】赚钱的事与值钱的事

如同，比尔的供水系统，在拧开水龙头，清水流出之前，他所面对的，是日复一日的现金消耗，以及所有人对他的无尽质疑——我们到底能不能完成这件事，接通水，赚到钱？过去的半年时间里，他做了商业计划，找到了投资，注册了公司，并雇用了项目施工管理的专业人员。但是，你赚钱的时候，别人在设计一个更大的结构覆盖你，当比尔的水管接通，艾德愤怒妒恨哭天抢地找村长都是没用的。从投资人角度看比尔的水管，要基于对市场需求与供給能力、成本结构、市场变化概率的评估后，进行估值、投资，然后建设、收益分成。赚钱的事的核心，是当下的利差。

2025-02-26 23:40:38 224

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

【深度学习CV】图像分类如何训练一个高效的 图像分类模型：手工设计CNN、开源模型resnet到GPU优化

深度学习循环神经网络案例讲解-基于 PyTorch 的中文歌词生成-RNN，LSTM,GRU 从数据预处理到预测全流程详解

深度学习多分类任务的一站式解决方案！从数据预处理到混淆矩阵，手把手教你做手机价格预测

机器学习【KMeans聚类分析实战】用户分群聚类详解-SSE、CH 指数、SC全解析，实战电信客户分群案例

从 ID3 到 CART：一文看懂决策树核心原理，实战 Titanic 乘客生存预测

【计算机视觉基础CV】03-深度学习图像分类实战：鲜花数据集加载与预处理详解

深度学习03-神经网络 5 (完结篇) - pytroch手机价格分类案例讲解

空空如也

【深度学习CV】图像分类如何训练一个高效的图像分类模型：手工设计CNN、开源模型resnet到GPU优化