- 博客(210)
- 收藏
- 关注
原创 Transformer 的训练过程是什么样子的?一文讲清:Transformer 的结构及训练过程
本文系统介绍了Transformer模型在序列到序列任务中的应用及实现原理。主要内容包括: 序列到序列模型应用:涵盖语音识别、机器翻译、聊天机器人、语音合成、问答系统、句法分析和多标签分类等场景,重点分析了输入输出序列长度的动态关系。 Transformer架构: 编码器采用自注意力机制处理输入序列,通过残差连接和层归一化优化信息传递 解码器通过自回归方式生成输出,引入编码器-解码器注意力机制实现跨序列交互 训练过程:采用端到端训练方式,支持处理变长序列输入输出,特别强调了在语音翻译等无文字语言场景中的特殊
2025-09-12 16:37:09
900
原创 Transformer到底是个啥啊?一文逐层分解Transformer整体结构、流程及代码实现
Transformer模型结构解析 Transformer是一种基于自注意力机制的神经网络架构,主要由Encoder和Decoder两部分组成,各包含6个模块。其工作流程分为三步:1)构建单词表示向量(词嵌入+位置编码);2)Encoder处理输入生成编码矩阵;3)Decoder基于编码矩阵逐步预测输出。核心组件包括Multi-Head Attention(多个自注意力机制并行)和Add&Norm(残差连接+层归一化)。自注意力机制通过计算Q、K、V矩阵来捕捉单词间关系,而位置编码则通过正弦/余弦函
2025-09-11 16:07:22
969
原创 AI大模型 | 从基本原理到代码理解语言模型的训练和推理过程
文章摘要:本文系统介绍了大语言模型(LLM)的核心原理与实现,重点解析了token处理、embedding机制、位置编码和自回归预测等关键技术。通过nanoGPT项目的代码示例,详细说明了transformer架构的训练和推理过程,包括多头注意力、前馈网络等模块的实现。文章还探讨了模型部署的多种方式(服务器端、边缘设备、云端等)及主流服务化工具的比较,特别介绍了Nvidia Triton推理框架的优势。最后指出AI大模型领域的发展前景和人才需求,并提供了相关学习资源。全文从理论到实践,为读者构建了完整的LL
2025-09-10 15:57:47
875
原创 一文讲清:AI大模型的开发训练与推理部署,全是干货!
摘要: 大模型的开发与推理部署涉及系统级优化和多设备并行策略。训练阶段通过设备内优化(如混合精度、梯度检查点)和分布式优化(数据/张量/流水线/参数切片并行)提升效率。推理环节则从模型压缩(稀疏化、量化、蒸馏)、高效推理框架(如vLLM、TGI)及服务部署协同优化入手,解决显存占用、计算规模等挑战。当前,vLLM等框架通过PagedAttention等技术显著提升吞吐量,支持大模型高效落地应用。
2025-09-09 12:09:00
737
原创 一文讲清:大语言模型的关键技术:模型预训练、适配微调、提示学习、知识增强和工具学习等
摘要: 大语言模型技术涵盖预训练、微调、提示学习等核心方法。预训练优化包括任务设计、热启动、分层训练、知识迁移和可预测扩展策略,显著提升效率(如CPM-2效率提升37.5%)。架构创新如RetNet和混合专家模型(Switch Transformers)解决了显存和计算效率问题。微调技术通过指令微调(如InstructGPT)和参数高效学习(如LoRA、Prefix-Tuning)实现任务适配,降低计算成本。当前研究聚焦指令对齐,结合人类反馈优化输出质量。AI大模型领域快速发展,人才需求激增,需系统学习以把
2025-09-08 17:45:12
610
原创 Agent九种设计模式有哪些?看完你的AI大模型就很牛了!
AI Agent设计模式概览 AI Agent通过感知、规划、行动三步骤动态完成任务,需具备推理、记忆、工具和行动四大模块。目前主流有9种设计模式,其中5种核心模式如下: ReAct模式:结合推理与行动,通过"行动-观察"循环动态调整策略,提升任务执行的连贯性和准确性。 Plan and Solve模式:先规划再执行,适用于多阶段任务(如烹饪),支持动态调整计划(如缺食材时新增步骤)。 REWOO模式:隐式观察依赖关系,适用于审批流等环环相扣的任务,通过链式计划自动传递上一步输出。 LL
2025-09-05 15:16:36
950
原创 多模态模型是什么?多模态模型的特点有哪些?
多模态模型是能处理多种数据类型的AI系统,如文本、图像、视频和音频等,通过整合不同信息源提升理解能力。其优势在于综合利用各模态互补信息提高准确性,但面临跨模态整合的技术挑战。随着AI快速发展,大模型需求激增,相关人才缺口巨大。学习这类技术需系统规划,但丰富的在线资源为零基础者提供了入门机会。目前该技术在图像识别、语音助手等领域已有广泛应用,未来发展前景广阔。
2025-09-04 11:53:12
319
原创 如何让AI大模型输出合法的JSON格式?
摘要:确保大模型输出合法JSON格式的四种方法:1)提示工程,通过精确指令和示例引导;2)约束解码,使用工具动态过滤无效Token;3)后处理验证,用正则修正格式错误;4)模型微调,让模型学习特定输出模式。这些方法可单独或组合使用,有效提升JSON输出的稳定性和准确性。(150字)
2025-09-03 10:57:55
858
原创 零基础也能看懂的大模型、RAG、函数调用、Agent、知识库、向量数据库
AI大模型技术解析与应用前景 大语言模型(LLM)作为智能语言处理专家,通过海量数据训练实现精准语义理解和流畅表达,广泛应用于文本处理、智能问答等领域。AGI(通用人工智能)则代表更高阶的智能形态,具备跨领域学习、自主决策等能力。RAG技术结合知识库检索与大模型推理,提升回答准确性;智能体(Agent)通过工具调用实现任务自动化。向量数据库和知识图谱为AI系统提供高效数据支持。 随着AI技术快速发展,大模型人才需求激增,2025年预计缺口达1000万。学习AI大模型需系统性规划,但丰富的在线资源为零基础者提
2025-09-02 16:06:08
756
原创 1分钟搞懂什么是Function Calling?AI大模型能自己调用工具?
摘要:Function Calling是让AI调用外部工具的关键技术,通过自然语言实现任务执行。其工作流程包括理解用户需求、管理上下文、识别并调用功能、生成输出内容。与MCP、A2A的区别在于专注工具调用。大模型通过两次调用完成功能:首先生成工具参数,再整合结果生成回复。文章强调AI领域发展迅猛,人才缺口巨大,并推荐相关学习资源。该技术巧妙结合大模型与程序,实现"工具调用"能力。(150字)
2025-09-01 15:42:48
454
原创 一文讲清:RAG的5种切分策略以及RAG 应用程序的典型工作流程
摘要: 本文介绍了RAG(检索增强生成)应用中五种文本分块策略:1)固定大小分块:简单切割但可能破坏语义;2)语义分块:基于相似度动态划分,保持语义连贯;3)递归分块:先按自然分隔符拆分,再处理超限块;4)基于文档结构分块:利用标题、段落等层级划分;5)基于LLM的分块:通过大模型智能分割,效果优但成本高。分块策略直接影响检索质量,需平衡语义完整性与计算效率。
2025-08-29 15:19:50
862
原创 1分钟搞明白什么是Agent?Agent四大核心能力详解
AI智能体(Agent)是结合大模型、工具调用和自主行动能力的AI系统,能像人类一样拆解并执行复杂任务。其四大核心模块包括:LLM大脑负责推理决策,记忆库存储短期/长期信息,规划引擎分解任务,工具箱连接现实工具。相比传统聊天机器人,智能体具备多模态感知、自主规划、工具调用和记忆增强能力,能完成旅游规划等实际任务。随着AI技术快速发展,2025年AI领域人才缺口预计达1000万,学习大模型技术成为把握新兴机遇的关键。
2025-08-28 14:04:31
1018
原创 一文讲清:大模型的定义、表现形式、架构、Transformer 深度学习架构
本文介绍了AI大模型的基础知识,包括定义、表现形式、Transformer架构及模型构建。大语言模型(LLM)指具有超10亿参数的深度学习模型,基于Transformer架构,通过海量文本数据训练实现语言生成与理解。其表现形式为特定格式的参数文件(如Meta的LLaMA-2模型)。Transformer作为核心架构,采用自注意力机制处理序列数据,支撑了GPT、BERT等模型的突破性进展。文章强调AI大模型是新兴技术风口,并提供了学习资源引导,指出零基础者通过系统学习也能掌握相关技能。总体而言,本文为初学者梳
2025-08-27 14:24:05
813
原创 一文讲清:大模型七大工具&框架,看这篇就够了!
摘要: LangChain是一个开源框架,用于构建基于大型语言模型(LLM)的应用程序,支持模块化组合模型、提示管理、任务链、记忆存储、索引检索和智能代理等功能,解决LLM在动态更新、外部数据访问和复杂任务分解方面的局限性。 LLAMA Factory专注于高效微调大型语言模型(如LLaMA、BART等),支持LoRA、QLORA等参数优化技术,提供分布式训练和多任务支持,适用于对话系统、文本生成和领域适应等场景。 Dify是一个开源LLM应用开发平台,支持多种模型(如GPT、Llama3),提供声明式开发
2025-08-26 15:03:43
1010
原创 手把手教你Prompt+RAG+微调 | 一文说清!
摘要: Prompt Engineering(提示词工程)是通过优化输入提示来提升AI模型输出的技术,可快速构建应用原型并建立性能基准。其核心原则包括清晰指令、任务分解、给予思考空间和系统测试。RAG(检索增强生成)结合信息检索与文本生成,通过检索外部知识提升回答准确性,适用于需要动态知识更新的场景。两者各有优势:提示词工程实施门槛低,适合轻量需求;RAG则能补充模型知识,减少幻觉输出。评估模型性能需结合人工审核、自动化测试和用户反馈,而RAG效果则需从回答真实性和检索准确性多维度衡量。随着AI技术发展,掌
2025-08-25 15:17:25
736
原创 一文讲清RAG:检索、增强、生成!看这篇就够了!
RAG(检索增强生成)是一种融合检索技术与生成模型的AI框架,通过从外部知识库实时检索相关数据来增强大语言模型的生成能力。其核心流程包括:知识准备、向量化检索、提示增强和内容生成。RAG技术有效解决了传统大模型的知识滞后和幻觉问题,在问答系统、内容创作等场景中展现出显著优势。该架构由检索模块(双塔模型)和生成模块(大语言模型)组成,通过动态整合外部知识提升生成内容的准确性和时效性。Meta AI于2020年提出该技术后,现已成为AI工程化部署的主流方案之一。
2025-08-22 14:58:49
676
原创 手撕LLM | 从0开始讲解AI大模型底层技术原理
机器学习(Machine Learning,ML)是实现人工智能的核心方法,是从有限的观测数据中“学习”(or“猜测”)出一个具有一般性的规律,并利用这些规律对未知数据进行预测的方法。
2025-08-21 15:17:20
984
原创 AI大模型幻觉是什么?为什么会“幻觉”?一篇让你秒懂的大白话文章!
大模型幻觉(Al hallucination 或 Model Hallucination)是指Al基于概率生成的"自信型错误",输出看似合理但完全失实的内容,像极了人类"不懂装懂"的样子。
2025-08-20 14:03:43
605
原创 深入浅出人工智能:一篇用白话讲清“神经网络”和“机器学习”的文章
ChatGPT展现的强大能力,离不开人工智能相关技术的发展和成熟。本文我们将逐条拆解ChatGPT背后相关的技术。
2025-08-19 17:11:26
443
原创 5分钟带你搞懂AI大模型Agent(智能体)
摘要: LLM Agent是基于大语言模型的智能代理系统,具备环境感知、自主决策与任务执行能力,其核心模块包括规划、记忆、工具和行动。通过RAG(检索增强生成)技术,Agent可动态接入专业知识库,提升垂直领域处理能力。文章以财报分析Agent为例,详解其架构设计、数据获取与报告生成流程,并强调AI大模型领域的人才缺口与学习机遇。文末提供大模型学习资料获取链接,助力从入门到精通。
2025-08-18 11:57:37
867
原创 多模态RAG怎么做?读懂多模态RAG看这一篇就够了!
多模态RAG技术综述:框架、创新与挑战 本文系统梳理了多模态检索增强生成(RAG)技术的最新进展。研究提出通用框架涵盖查询处理、跨模态检索、融合机制、增强技术和生成优化等核心环节。创新点包括:动态规划策略实现自适应检索(如OmniSearch的规划Agent)、多模态对齐技术(CLIP/BLIP融合)、以及增强生成方法(上下文学习、推理链)。研究对比了传统RAG与新型动态系统的差异,并构建Dyn-VQA基准数据集评估复杂场景表现。尽管多模态RAG在医疗、自动驾驶等领域展现潜力,仍需解决模态对齐、实时更新等挑
2025-08-16 11:33:55
678
原创 MoE是什么?一文读懂“混合专家模型(MoE)”看这篇就够了!
混合专家模型(MoE)摘要 混合专家模型(MoE)是一种改进的Transformer架构,通过稀疏MoE层替换传统前馈网络,包含多个专家网络和门控路由系统。MoE在预训练和推理速度上优于稠密模型,但面临训练稳定性、专家负载均衡和显存占用等挑战。关键技术包括Top-K门控、专家容量限制和辅助损失函数,以优化计算效率。代表性工作如Switch Transformers实现了万亿级参数规模,显著提升训练速度。尽管MoE在指令调优和大模型应用中潜力巨大,仍需解决推理延迟和迁移学习性能波动问题。该领域持续发展,为AI
2025-08-15 10:50:28
837
原创 终于有人讲清楚MCP、 RAG、 Agent之间的关系和概念了!
本文介绍了AI领域的三大核心技术概念及其关系:RAG(检索增强生成)通过整合检索与生成技术,使AI回答更具事实依据;Agent(智能体)能够自主感知环境并执行任务;MCP(模型上下文协议)为AI系统提供标准化交互接口。三者协同工作可构建更强大的AI系统:Agent通过MCP连接外部工具,利用RAG获取知识支持决策。文章还通过生活案例说明这些技术的应用场景,并强调AI行业快速发展带来的机遇,指出2025年AI人才缺口将达千万,鼓励读者把握学习机会,提供了AI大模型学习资源链接。
2025-08-14 11:31:07
909
原创 终于有人讲清楚RAG、Langchain、Agent之间的关系和概念了!
本文介绍了AI领域的三大关键技术:RAG(检索增强生成)、LangChain框架和Agent(智能体)。RAG使大语言模型能够实时检索外部知识,LangChain为构建AI应用提供便捷框架,Agent则作为智能代理人执行复杂任务流程。三者结合可创建专门解决用户需求的AI系统,在金融、法律等专业领域展现出强大应用潜力。文章指出AI大模型人才缺口巨大,并提供了相关学习资源。随着技术发展,这一组合将持续提升能力,重塑人机交互范式。
2025-08-13 16:03:53
589
原创 【写给小白的LLM】AI大模型中的 token 到底是个什么?
摘要: Token是AI大模型处理文本的最小单元,相当于语言的"积木块",通过分词算法将文本拆分为单词、子词或字符等形式。不同语言的Token计算方式不同:英文1个Token≈0.75个单词,中文1个Token≈1-2个汉字。Token数量直接影响AI模型的输入限制、计费成本和理解效果。优化Token使用可节省算力成本,例如精简文本或控制输出长度。了解Token机制有助于更高效地使用AI工具。
2025-08-12 15:28:46
611
原创 知识图谱是什么?和AI大模型有什么关系?
摘要: 知识图谱是一种以实体和关系为核心的信息存储方法,通过结构化方式表示事实(如人物关系、企业投资等)。2023年后,随着大模型兴起,知识图谱因其能缓解大模型"幻觉"问题而重新受到关注。目前降低大模型幻觉的5种方法包括优化提示词、限制内容范围(如RAG技术)、后处理、提升数据质量和模型微调。知识图谱尤其擅长处理复杂关系查询(如团队成果汇总),与向量数据库形成互补,可结合多路召回技术提升RAG效果。AI大模型领域快速发展,预计2025年人才缺口达千万,为从业者提供了新的职业机遇。 (字数
2025-08-11 15:09:04
952
原创 AI大模型中的思维链(chain of Thought, CoT)是什么?看完小白也悟了!
摘要: 思维链(Chain of Thought,CoT)是一种让AI分步展示推理过程的技术,通过显式拆解问题(如数学计算)提升答案准确性。其原理是迫使AI启动“慢思考”,调用逻辑模块逐步验证,类似人类解题步骤。分为显式(展示过程)和隐式(仅输出结果)两种形式,但依赖模型底层能力且可能产生冗余步骤。随着AI大模型快速发展,相关人才需求激增,学习大模型技术成为新兴领域的机遇。
2025-08-08 11:55:29
513
原创 什么是LoRA?一篇文章给你讲清楚LoRA(低秩适应)
摘要: LORA(低秩适应)是一种轻量级的大模型微调方法,通过添加可训练的低秩矩阵模块(仅调整少量参数)实现任务适配,保持原模型参数不变。其优势在于计算资源需求低、性能接近全量微调、模块小巧易部署,适用于大语言模型任务定制、扩散模型风格生成及边端设备动态适配。原理上,LORA通过低秩矩阵分解近似复杂变换,在推理阶段叠加模块输出,实现“外挂式”调整。2025年AI领域预计人才缺口达千万,掌握LORA等大模型技术将提升职业竞争力。 (字数:150)
2025-08-07 15:26:57
893
原创 一文详解:8种常见的大模型微调方法,看这篇就够了!
LoRA与QLORA:高效微调大模型的新方法 LoRA(低秩适应)通过引入小型低秩矩阵微调大模型关键权重,避免全参数调整,显著降低计算开销。QLORA结合4-bit量化技术,在保持精度的同时将显存占用降低83%,使单卡微调百亿参数模型成为可能。 适配器调整与前缀调整 适配器通过在模型层间插入小型可训练模块实现任务适应,保持主体参数不变。前缀调整则在输入序列前添加可训练虚拟标记,动态引导模型输出,支持多任务切换。 提示调整:轻量级微调方案 通过优化输入端的提示向量(而非模型参数)来适配任务,模仿自然语言提示效
2025-08-06 13:58:34
1129
原创 终于有人把大模型11种微调方法说清楚了!
摘要: 本文系统介绍了10种高效微调大语言模型(LLM)的技术,旨在降低计算成本与存储需求,同时保持性能。核心方法包括: 前缀调优(PrefixTuning):优化连续前缀向量引导生成任务。 提示调优(PromptTuning):通过冻结模型、添加可调标记实现参数高效适配。 P-Tuning v2:在模型各层引入连续提示,提升小模型效果。 LORA:冻结预训练权重,注入低秩矩阵减少可训练参数。 DyLORA/AdaLORA:动态调整秩分配或基于重要性剪枝,优化效率。 QLORA/OA-LORA:结合4bit
2025-08-05 11:37:32
649
原创 万字详解 | 大模型RAG系统的12个问题+12个优化思路
摘要:本文探讨了检索增强生成(RAG)系统的12个常见痛点及其解决方案。问题包括内容缺失、文档排名遗漏、上下文整合失败、答案提取困难、格式错误等7个工程问题,以及数据扩展性、结构化数据问答、PDF数据提取等5个额外挑战。针对这些问题,文章提出了优化策略,重点包括数据清洗、分块处理、递归分割等方法,强调通过语义完整性保持和动态分块策略来提升系统性能。这些解决方案旨在帮助开发者更有效地构建高性能RAG系统,应对信息检索和生成中的各类挑战。
2025-08-04 10:09:15
938
原创 收藏级干货!深度学习的15种注意力机制(Attention Mechanism)一文学透!
摘要: 本文系统介绍了深度学习中15种核心注意力机制及其应用。注意力机制通过动态权重分配模仿人类选择性关注能力,显著提升模型对关键信息的捕捉效率。重点解析了软/硬注意力、自注意力、交叉注意力及多头注意力等机制的原理,包括QKV计算、注意力分数生成等关键技术。文章还探讨了多头潜在注意力等进阶方法,并指出注意力机制在机器翻译、文本生成等任务中的突破性作用。随着AI大模型快速发展,掌握这些机制对算法工程师至关重要,文末提供了系统学习路径和资源推荐。
2025-08-01 14:06:13
1104
原创 SFT 是什么?大模型SFT(监督微调)该怎么做(经验技巧+分析思路)
摘要: SFT(监督微调)是一种基于预训练模型的迁移学习技术,通过少量标注数据调整模型参数,使其适配特定任务(如文本分类、对话生成)。其核心价值在于结合预训练的通用能力和微调的任务适应性,显著降低训练成本。技术特点包括依赖预训练模型、参数高效调整等,广泛应用于NLP和CV领域。然而,SFT也存在依赖预训练质量、数据不足易过拟合等局限性。学习建议包括掌握迁移学习原理、实践微调技术(如LoRA)及数据标注技巧。当前AI大模型发展迅速,掌握SFT等关键技术有助于抓住行业机遇。 (149字)
2025-07-30 09:00:00
695
原创 NLP是什么?一文带你搞懂“自然语言处理(NLP)”看这篇就够了!
摘要: 自然语言处理(NLP)是人工智能的重要分支,旨在让机器理解人类语言,执行语音识别、机器翻译等任务。NLP可分为自然语言理解(NLU)和生成(NLG),相比计算机视觉,NLP面临方言、歧义等更大挑战。传统方法使用RNN和CNN,但2018年BERT的出现改变了NLP范式,其预训练模型通过微调即可迁移到不同领域,大幅提升效率。Transformer架构为AIGC奠定了基础。随着AI大模型快速发展,相关人才需求激增,学习AI大模型成为新兴机遇。(150字)
2025-07-29 09:00:00
1736
原创 一文讲清智能体(AI Agent),这是一篇不得不看的干货总结!
智能体技术前沿与应用概述 智能体(Agent)作为新型AI系统,通过环境感知、自主决策和执行能力实现复杂任务处理。核心分类包括语言型、视觉型和混合型智能体,其中视觉-语言混合型(如MobileFlow)因跨平台兼容性成为研究热点。当前技术突破体现在OpenAI的ComputerUse系统、SpiritSight的纯视觉交互方案及MobileFlow的移动端专用架构。典型应用场景覆盖GUI自动化测试(探索/回归测试)、移动应用操作(电商流程)和桌面任务自动化(文档处理)。尽管取得进展,智能体仍面临可靠性(38
2025-07-28 09:56:52
1129
原创 GPU并行计算是什么?GPU并行计算的原理是什么?
GPU(Graphics Processing Unit Parallel Computing)并行计算是一种利用图形处理单元的硬件架构,通过大规模并行执行来加速计算任务的技术。
2025-07-26 11:53:04
988
原创 Embedding(嵌入)是什么?从文本到Embedding的流程是怎样的?
摘要: Embedding是将文本转化为语义向量表示的技术,通过浮点数向量反映文本间的语义相关性。生成方式分为Token级(分词后映射为向量)和句子/文档级(通过专用模型生成上下文向量)。Embedding的本质是语义的数字表示,向量间距离反映语义关系,广泛应用于RAG、相似性判断和文本聚类等场景。常见问题解答了Token与Embedding的区别、向量的学习来源及固定长度原因。AI大模型发展迅速,人才需求激增,学习资源丰富,为零基础者提供入门机会。 (字数:150字)
2025-07-25 14:39:50
875
原创 大模型的微调一般训练多少epoch不会过拟合?
文章摘要:本文探讨了不同微调方法的epoch选择策略,包括全量微调(1-3个epoch)、LoRA(3-10个epoch)、Adapter(5-15个epoch)和Prompt Tuning(10-50个epoch)。数据规模和质量显著影响epoch需求,小数据集易过拟合需1-3个epoch,大数据集1-2个足够。训练应结合动态学习率调整和多维度早停策略,监控任务指标、困惑度和梯度范数。不同任务类型(文本分类、生成、对话等)对epoch需求各异。文章还强调AI大模型领域的快速发展及人才需求,提供相关学习资源
2025-07-24 19:42:14
612
原创 KV缓存是什么?为什么说它是AI大模型推理的加速密码?
KV缓存技术是AI大模型生成任务中的关键优化手段,它通过存储历史输入的Key-Value向量避免重复计算,显著提升长文本生成效率。该技术类似"聊天备忘录"机制,在对话场景中可减少80%重复交互,使推理速度提升4.8倍。其优势在于加速推理过程和支持长文本生成,但也面临显存占用大、管理复杂等挑战。随着AI大模型快速发展,掌握KV缓存等核心技术对应对行业人才缺口具有重要意义。当前AI领域预计2025年将产生千万级人才需求,系统学习大模型技术为职业发展提供新机遇。
2025-07-23 14:20:45
775
原创 语言模型中的困惑度Perplexity(PPL)是什么?
摘要:困惑度(PPL)是衡量语言模型性能的核心指标,表示模型预测下一个词的不确定性,数值越小越好。计算基于对数概率平均值的指数,反映模型预测时的"等可能选项数"。PPL与交叉熵密切相关,用于训练早停和性能评估。但需注意:不同任务PPL不可直接比较,且PPL低不代表生成内容质量高,还需结合其他指标评估。AI大模型发展迅速,学习相关技术是把握新兴行业机遇的关键。
2025-07-22 16:15:21
1126
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人