自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(772)
  • 收藏
  • 关注

原创 面试官:Dify如何调用外部程序?

Dify提供三种调用外部Java程序的方式:1)HTTP请求:通过配置工作流节点直接调用RESTful接口,简单灵活但需手动处理错误;2)自定义工具:基于OpenAPI规范封装为可复用工具,适合数据转换等标准化场景;3)MCP方式:通过SpringAI框架实现动态调用,适合复杂通用场景但配置较复杂。三种方式各具特点,可根据具体场景选择不同复杂度的集成方案。

2025-07-22 17:55:04 583

原创 多模态大模型存在「内心预警」,无需训练,就能识别越狱攻击

安全是大模型走向真实世界应用过程中必须优先考虑的问题。HiddenDetect 提出了一种无需训练、基于激活信号的检测方法,为提升多模态模型的安全性提供了新的思路。该方法结构轻量、部署灵活,已在多个模型与攻击类型中展现出良好效果。尽管如此,该方法目前仍主要聚焦于风险提示,尚未对模型行为产生直接调控。未来,研究团队希望进一步拓展方法能力,并深入探索模态信息与模型安全性的内在关联,推动多模态大模型朝着更可靠、更可控的方向发展。

2025-07-22 17:48:14 364

原创 连接语言大模型(LLM)服务进行对话

本文介绍了两种连接AI大模型实现对话功能的方法:使用openai模块和LangChain框架。通过阿里云百炼平台的API示例,展示了如何调用deepseek等大模型进行单次对话(openai模块)和批量任务处理(LangChain)。后者特别适合多标签分类等批量操作,并能自动适配不同模型的接口特性。文章还提到多轮对话和流式输出对AI聊天应用的重要性,这些功能在百炼平台均有支持。两种方法均需设置base_url和api_key,通过修改提示词可实现不同对话效果。

2025-07-22 17:11:31 617

原创 2025年备受瞩目的大型语言模型:各领域TOP 5榜单

本文系统梳理了HuggingFace排行榜上的顶级大型语言模型,涵盖文本、代码、图像及多模态生成四大领域。重点介绍了GLM-4、DeepSeekV3等文本模型,StarCoder2、CodeLlama等代码模型,HiDream-I1、DALL·E3等图像模型,以及Gemini2.5Pro、Llama4等多模态模型。这些模型展现出从专业领域处理到多模态融合的前沿能力,反映了当前AI领域多元化发展的趋势。文章指出,开源生态的繁荣使各类创新主体都能参与技术进步,推动行业向更开放、协作的方向发展。

2025-07-21 20:55:59 639

原创 面试官:如何实现大模型的连续对话?

大模型连续对话的实现需要开发者自行处理对话历史存储。本文以SpringAI和SpringAIAlibaba框架为例,对比了两种实现方式:SpringAI需要手动创建数据库表、编写Mapper和自定义ChatMemory类;而SpringAIAlibaba则内置了Redis等存储方案,只需简单配置即可。后者通过RedisChatMemoryRepository等组件显著简化了开发流程,比SpringAI的实现方式更加便捷高效。两种方案都展示了在Java生态中实现大模型连续对话功能的具体方法。

2025-07-21 20:53:07 488

原创 TableRAG:让表格保持“原汁原味”的四步多跳问答框架

**摘要:**华为云TableRAG创新框架解决了传统RAG处理异构文档(文本+表格)时结构信息丢失的问题。通过SQL将整表作为原子单元,结合四步迭代流程(查询分解、文本检索、SQL执行、答案组合),在HeteQA基准上实现93.55%问题5步内解决,准确率提升10%。实验表明其符号推理能力显著优于基线模型,尽管依赖大语言模型算力且暂限英语场景,但为金融、科研等领域的结构化数据问答提供了新范式。开源代码支持MySQL+A100快速复现。

2025-07-21 20:49:45 834

原创 如何使用 Neo4j、知识图谱和 LLM 构建聊天机器人

本文介绍了如何利用知识图谱和LLM构建高效的结构化数据问答系统。作者通过医疗行业案例说明传统RAG在处理复杂查询时的局限性,提出三种GraphDB解决方案:1)简单CypherQAChain实现基础问答;2)高级查询方法通过实体提取提升复杂问题处理能力;3)结合向量索引的GraphRAG技术处理非结构化数据。以电影数据集为例,详细演示了Neo4j数据库构建、Cypher查询生成和混合检索策略的实现过程。文章强调知识图谱在表达复杂关系方面的优势,并指出结合结构化与非结构化数据的混合方法能构建更强大的问答系统。

2025-07-21 20:47:54 682

原创 AI入门-搭建一个本地聊天机器人

本文介绍了基于阿里云百炼大模型的AI应用开发实践。重点分析了该模型在中文支持(82.3%准确率)、合规性(数据不出境)和性价比(比国际产品便宜40-60%)等方面的优势。详细讲解了提示词设计的结构化公式"角色+领域+任务+格式",并提供了多轮对话实现方案。通过Python代码示例展示了如何构建具有教学能力的AI助手,包括系统角色设定、流式响应处理和对话记忆管理等功能。项目采用Pycharm开发环境,使用.env文件管理API密钥,实现了符合K12教育要求的智能问答系统。

2025-07-21 20:35:30 825

原创 《让RAG拒绝幻觉:企业级混合检索+强化学习实战》​

《个人RAG与企业RAG技术架构对比分析》摘要: 本文深入探讨了检索增强生成(RAG)技术在个人与企业场景下的差异化实现。个人RAG侧重轻量化,采用本地数据库(如Faiss)和小型模型(7B参数Llama2),强调隐私保护和低资源消耗(<4GB内存),适用于个人文档检索等场景。企业RAG则需处理TB级动态数据,采用分布式架构(如Milvus)、大模型(70B参数GPT-4)和Kubernetes集群,满足高并发(>100QPS)、合规性等商业需求。核心差异体现在数据规模(10GB vs 1TB)

2025-07-21 20:30:10 410

原创 传言中的GPT-5,我们还能赶上吗?

【摘要】GPT-5或将带来AI领域的范式转变,相比GPT-4实现质的飞跃。核心突破包括:1)增强推理能力,实现更独立的逻辑思考;2)接近解决所有常见编码问题,推动AI全栈开发;3)将"幻觉"错误率降至15%以下;4)实现全模态交互,覆盖文本/音频/图像/视频等;5)发展成自主代理,可管理流程、开发应用等。这一跨越将AI从语言理解扩展到现实操作层面,可能重塑整个产业生态。面对这一飞跃,国内AI技术追赶面临严峻挑战。(149字)

2025-07-21 20:27:13 468

原创 最新实践LangGraph的记忆体

LangGraph作为新一代记忆组件,相比传统方法具有显著优势。它通过图结构实现灵活记忆管理,支持在任意节点读写用户历史、上下文等数据;可视化流程设计使对话逻辑更清晰;支持多模型协作,适合复杂任务分解。其核心由节点(LLM调用、工具操作等)、边(流转条件)和记忆(可传递更新的状态)组成。与LangChain的Runnable结合使用时,StateGraph负责流程编排,Runnable处理具体执行,形成"节点自动流转+Runnable统一接口"的高效模式,适用于从简单对话到复杂推理的各种

2025-07-21 20:23:00 662

原创 Dify +飞书多维表格: 实现一键识别票据到Execl表格

本文介绍如何将火车票/发票识别结果直接录入飞书多维表格。首先需在飞书开放平台注册开发者账号,创建应用并开通权限。接着在飞书文档创建多维表格,并与自建应用关联。然后在Dify工作流中添加"代码执行"节点处理数据格式,再通过"新增多条记录"节点将JSON格式数据自动写入表格。配置时需注意表格列名与JSON字段的对应关系。最终实现票据信息从识别到表格录入的全流程自动化,提高工作效率。

2025-07-21 20:20:32 452

原创 MCP简单研究以及介绍

MCP(Model Context Protocol)是由Anthropic开发的开放协议,旨在实现大型语言模型与外部数据源、工具和服务的无缝集成。协议通过标准化JSON-RPC 2.0格式的通信机制,定义了MCP Client(如VSCode)和MCP Server(功能服务端)的交互方式。MCP Client负责上下文管理和工具调用,而MCP Server提供协议适配与功能实现,支持本地(STDIO)或云端(SSE)通信。协议通过结构化消息传递(如工具请求标记化、结果回传)实现动态扩展,其核心逻辑是通过

2025-07-21 20:12:25 1546

原创 比Adam更有效,POET从谱不变原理出发,让LLM训练又稳又快

德国马普所与港中文团队提出POET方法,通过正交等价变换重参数化大型语言模型训练过程。该方法保持权重矩阵的奇异值谱结构,同时维持低超球能量,显著提升训练稳定性和泛化性能。研究者开发了高效近似算法,使POET可扩展至十亿参数规模,实验证明其在LLaMA架构上优于标准AdamW优化器。该方法将随机初始化权重与可学习正交矩阵结合,在训练全周期保持谱特性,为大规模模型训练提供了新范式。

2025-07-18 15:57:33 672

原创 终于把 LSTM 算法搞懂了!!

LSTM(长短期记忆网络)是一种特殊的循环神经网络,通过门控机制解决传统RNN的梯度消失问题。它包含遗忘门、输入门和输出门,能有效捕捉序列数据的长期依赖关系,广泛应用于自然语言处理和时间序列预测。文章以英伟达股票预测为例,展示了使用Python和TensorFlow构建LSTM模型的完整流程,包括数据获取、归一化处理、模型训练和预测可视化。LSTM模型在保持长期记忆和梯度流动方面具有显著优势。

2025-07-18 15:55:31 881

原创 3种方法让LLM提取任意文档中的知识点

本文系统介绍了使用大语言模型从文档中提取知识的三种方法:1)预设模板提取法,适用于结构明确的信息;2)JSON结构化提取法,可灵活呈现复杂层级关系;3)QA问答对提取法,便于构建智能问答系统。文章还提出了三种知识增强策略:生成内容摘要、扩展详细答案和增加同义问法,以提升知识检索效果。这些方法针对不同场景需求,从基础提取到高级应用,为文档知识挖掘提供了完整解决方案。

2025-07-18 15:51:33 790

原创 什么是 Context Engineering

还记得刚用各种Agent时候,比如 Copilot, ChatGPT等等,我们精心设计提示词(prompt), 比如:"你是某领域的专家,请使用 A 和 B 工具,参考 Z 的方式,完成 Y 任务"目的是能够清晰表达请求,喂给模型明确的指令,以此引导模型产生理想输出. 它通常是一次性的, 关注的是 "在某个时间点应该对模型说什么".对于这种偏向单条Prompt的方式,我们可以称之为 "Prompt Engineering".

2025-07-18 15:39:53 694

原创 一文看懂 MOE 模型:让大模型像医院看病一样高效工作

MOE模型的核心思想是通过"专家分工"提升大模型效率。其工作原理类似于医院分诊系统:输入文本被拆分为token(患者),由路由机制(导诊台)分配给特定专家模块(专科医生)处理,仅激活相关专家而非全部计算资源。MOE具备三大特点:稀疏性(仅激活必要专家)、多样性(专家各有所长)、负载均衡(合理分配任务)。这种架构能以较低计算成本获得更好效果,但训练难度较高,需优化路由算法和专家分工。MOE并非全新概念,但为大模型时代提供了高效扩展方案,已成为当前主流架构之一。

2025-07-18 15:36:47 694

原创 Kimi K2:开源智能体模型的巅峰之作

摘要:Moonshot公司推出开源智能体模型KimiK2,该模型采用1万亿参数和320亿专家混合架构,在编程、STEM等复杂任务基准测试中表现优异。KimiK2具有预训练和后训练双学习机制,支持工具使用模拟和强化学习,提供基础和指令两种变体。其免费使用、快速响应及多场景应用特性,为通用AI发展开辟新路径。开发者可通过API或本地部署使用,支持代码执行、工具交互等智能体功能。

2025-07-18 15:34:52 756

原创 Codex CLI vs Gemini CLI:谁是更出色的编程智能体?

AI CLI工具正改变开发者工作方式:CodexCLI和GeminiCLI对比测试显示,前者在代码分析、错误调试和功能扩展方面表现更优,提供详细的结构化输出和严格的访问控制;而GeminiCLI虽能自动扫描代码库,但在复杂任务处理和深度分析上稍逊一筹。两者都需Node.js环境,但CodexCLI要求更高版本且更注重隐私保护。随着开源AI工具的普及,开发者需权衡功能与安全风险,谨慎选择适合的终端编程助手。

2025-07-18 15:28:31 716

原创 一文彻底搞懂智能体Agent基于Function Calling的工具调用

AI智能体是指具备一定自主性、能感知环境并通过智能决策执行特定任务的软件或硬件实体。它结合了人工智能技术(如机器学习、自然语言处理、计算机视觉等),能够独立或协作完成目标。基于大语言模型(LLM)的Function Calling可以令智能体实现有效的工具使用和与外部API的交互

2025-07-18 15:24:21 788

原创 万字解读:八种常见框架,选择哪一种来开发MCP呢?

本文评估了8种主流MCP服务器开发框架,涵盖TypeScript、Python、Go和Java等语言生态。EasyMCP(TypeScript)以简洁API见长,适合快速原型;FastAPI-MCP(Python)可快速集成现有API;FastMCP(TypeScript)功能全面但学习曲线略高;FoxyContexts(Go)性能优异但需Go基础;HigressMCP基于Envoy网关,适合企业级部署;MCP-Framework(TypeScript)提供自动发现功能;QuarkusMCP(Java)适合

2025-07-18 15:17:21 887

原创 简单聊一聊大模型的微调

大模型微调流程指南:本文详细介绍了大模型微调的全过程,包含六大关键步骤。首先需搭建Python环境和GPU加速环境,推荐使用魔搭社区平台;其次安装LLaMA-Factory等微调工具并准备JSON格式数据集。核心环节包括:1)基于LoRA方法进行参数高效微调;2)合理设置学习率和训练轮数等超参数;3)模型评估与性能测试。最后指导如何合并基础模型与微调参数,并部署到实际应用。文中以DeepSeek模型为例,提供了完整的命令行操作示范,包括数据处理、训练配置和模型导出等实操细节,适合开发者快速上手大模型定制化开

2025-07-18 15:15:08 900

原创 一文读懂开源 AI Agent 工作流构建新范式 -Sim Studio

摘要: SimStudio是一款开源的AI Agent工作流引擎,旨在简化大模型应用的开发流程。通过模块化组件和可视化编排,它支持LangChain、RAG、工具调用等场景,降低开发者构建智能代理的门槛。其核心优势包括:聚焦核心逻辑开发、兼容多模型原生能力(如OpenAI、Claude)、支持模型自由切换、原生AI设计体验及全链路可观测性。提供Docker快速部署,用户可通过拖拽式界面高效搭建从简单助手到多智能体系统的应用。SimStudio重新定义了Agent开发范式,平衡了易用性与灵活性,适用于从原型验

2025-07-17 17:52:33 912

原创 LLMs:AI时代的“大脑”如何重塑未来?

大型语言模型无疑是人工智能领域的一场革命,它正在深刻地改变着我们的世界。通过持续的创新和对挑战的积极应对,我们有理由相信,LLMs将在未来发挥更加重要的作用,为人类社会带来更多福祉。

2025-07-17 17:51:06 547

原创 如果说MCP是AI智能体的USB口,那A2A就是以太网

摘要:Anthropic推出的MCP协议和谷歌发布的A2A协议是当前AI领域两大核心通信标准。MCP专注于模型与外部数据源的连接(如数据库、API),采用JSON-RPC实现标准化交互;A2A则侧重智能体间的协同工作,支持任务分发和进度追踪。二者虽技术架构相似,但应用场景不同:MCP相当于"AI的USB接口",A2A则类似"AI以太网"。目前两大协议均获行业巨头支持,A2A已被捐赠给Linux基金会。随着AI生态快速发展,更多协议标准有望涌现,但技术定义模糊仍是当前主

2025-07-17 17:43:27 962

原创 1万tokens是检验长文本的新基准,超过后18款大模型集体失智

最新研究揭示大模型长文本处理存在"断崖式失智"现象。Chroma团队通过升级版NIAH测试18个主流大模型发现,当上下文扩展至1万tokens时,模型准确率普遍降至50%,且性能下降呈现非均匀性,在特定节点出现骤降。四项对照实验表明,输入长度是核心变量,而语义关联性、干扰信息和文本结构会加剧衰减。不同模型表现差异显著,如Claude系列倾向弃权,GPT系列易产生自信错误。研究建议在实际应用中设置检查点保存关键信息。该发现为提升大模型长文本处理能力提供了重要参考。

2025-07-17 17:41:35 899

原创 Transformer终结者!谷歌DeepMind全新MoR架构问世,新一代魔王来了

摘要:KAIST、谷歌DeepMind等机构联合发布全新MoR架构,推理速度提升2倍,内存减半,在135M到1.7B参数规模下全面超越传统Transformer。该架构采用动态路由机制,根据token复杂度分配计算资源,实现参数共享和智能缓存。实验显示,在相同计算预算下,MoR模型验证损失更低,few-shot准确率更高,推理吞吐量提升超2倍。研究证明MoR具有良好的可扩展性和参数效率,为LLM架构创新提供了新方向。(149字)

2025-07-17 17:40:09 840

原创 LangGraph篇-人机交互

本文介绍了人机交互(Human-in-the-loop)工作流在LLM应用中的实现方法。重点讲解了LangGraph中的interrupt函数,该函数允许在特定节点暂停执行、向人类展示信息并使用输入恢复工作流。文章详细说明了三种主要设计模式:审批/拒绝、编辑状态和获取输入,并提供了代码示例展示如何设置检查点和断点来实现人工干预。这种机制特别适用于需要人工验证或修正的关键决策场景,确保LLM输出的可靠性,同时保持自动化流程的效率。

2025-07-16 14:50:29 796

原创 月之暗面卷土重来?Kimi K2杀回来了

中国AI公司月之暗面发布的开源模型KimiK2在SWE-bench测试中表现优异,以65.8%的通过率超越GPT-4.1,接近ClaudeSonnet4水平。该测试要求AI理解复杂代码、跨文件关联分析并生成准确补丁,难度极高。KimiK2采用混合专家架构和新型优化器,专为AI代理场景优化,能自主完成实际任务。其完全开源的特点打破了顶级AI能力被美国公司垄断的局面,为开发者提供了更多选择。虽然本地部署需要高端硬件,但这一突破或将改变AI模型竞争格局。

2025-07-16 14:45:30 744

原创 只因一个“:”,大模型全军覆没

生成式奖励模型容易受到虚假奖励攻击,如何更好地避免类似情况发生,将是未来的研究方向。

2025-07-16 14:43:00 886

原创 AI 系统架构的演进:LLM → RAG → AI Workflow → AI Agent

1)并非所有系统都需要 AI Agent应从简单、可组合的模式入手,按需逐步增加复杂度。某些场景仅需检索功能即可满足需求。 以简历筛选为例,当筛选标准和后续操作明确时,基础工作流就能胜任。仅当需要更大的自主性以减少人工干预时,才应考虑采用 Agent 方案。2)注重可靠性而非丰富的功能LLM 的非确定性特质使得构建可靠系统颇具挑战。 虽然快速验证概念(proofs of concept)可行,但将其扩展到生产环境时往往暴露各种问题。 建议从沙盒环境起步,实施统一的测试方法,并通过防护机制确保系统可靠性。

2025-07-16 14:38:11 525

原创 一文带你彻底理解 AIGC、Agent、MCP 的概念和关系

本文系统介绍了AIGC、MCP和Agent三大AI核心技术概念及其相互关系。AIGC指人工智能生成内容,核心是多模态和RAG技术;Agent是具备自主决策能力的智能系统,通过FunctionCall模型调用外部工具;MCP是模型上下文协议,标准化了模型与外部工具的交互方式。三者协同构建了现代AI应用:AIGC提供内容生成能力,MCP实现标准化接口,Agent则整合这些能力完成复杂任务。随着技术发展,Multi-Agent和MCP生态正推动AI向更通用、更智能的方向演进,为各行业带来变革性影响。文章为理解当前

2025-07-16 14:32:27 675

原创 错题本 × LLM:人机协作如何炼成“最严代码考官”

摘要: 上海AI Lab与西安交大联合提出SAGA框架,通过人机协作优化LLM代码生成评估。研究发现,现有基准(如HumanEval)因测试用例覆盖不足和LLM生成偏差,高估模型性能,导致LeetCode实测错误率达40%。SAGA结合人类编程经验与LLM推理,生成多样化、高覆盖的测试用例,显著提升检测率(DR)和验证器准确度(VAcc),并推出CodeComPass基准,使模型Pass@1下降9.56%。该研究将评估从“主观经验”转化为可量化、可产品化的闭环系统,为AI代码生成落地提供科学方法论。

2025-07-16 14:29:23 753

原创 AI大模型智能体开发实战|基于 Dify + MCP 的理财助手

本文介绍了基于Dify和MCP开发AI理财助手的完整方案。文章从技术选型、环境部署入手,详细讲解了智能体架构设计、插件开发、金融数据抓取和微信公众号接入等关键环节。系统采用Dify作为LLMOps平台,结合MCP协议实现模块化工具调用,支持实时行情查询、资产组合分析和个性化投资建议等功能。开发部分包含Python代码示例,涵盖数据获取、MCP动作定义及微信公众号对接等核心模块。文章还探讨了运维安全、性能优化等关键问题,并展望了多Agent协同、系统集成等未来发展方向。该方案为企业技术团队和个人开发者提供了一

2025-07-16 14:24:44 832

原创 PocketFlow:一个 100 行代码实现的极简主义 LLM 框架

PocketFlow 通过证明 LLM 框架不需要复杂就能强大,为 AI 应用开发领域带来了一股清新的空气。它的 100 行代码框架提供了构建复杂 AI 工作流所需的一切,而不会带来任何不必要的复杂性或依赖性。随着越来越多的开发者厌倦了臃肿的框架和复杂的依赖关系,PocketFlow 的极简主义方法可能代表了 AI 框架开发的未来方向。它不仅适用于专业开发者,也非常适合 AI 智能体自己使用,这开启了一个新时代,在这个时代,智能体不仅可以编写代码,还可以设计和构建整个系统。

2025-07-16 14:05:21 636

原创 一分钟搞明白langchain如何运行LLM

本文介绍了LangChain框架中语言模型(LLM)的核心调用机制。主要内容包括:1)LangChain通过模块导入方式运行,典型流程包含LLM初始化、提示模板创建和链式调用;2)LLM初始化过程涉及BaseLanguageModel基类及其属性设置;3)调用流程详解:从invoke方法开始,经过输入转换、API调用到结果处理。关键点是模型调用时需要将输入转换为统一格式,并处理返回的复杂数据结构。整个机制实现了不同模型接口的统一调用方式。

2025-07-16 13:59:15 656

原创 GraphRAG vs. RAG:差异详解

本文对比分析基于向量的RAG和GraphRAG两种检索增强生成技术。传统RAG依赖语义相似性检索,但难以处理复杂关系和多跳推理;GraphRAG通过集成知识图谱,显著提升处理层次结构和关系查询的能力,可提高35%的准确性,并增强结果可解释性,但也面临知识图谱构建和维护的挑战。混合方法结合两者优势,MongoDB Atlas等统一平台能有效支持不同数据模型。随着AI系统复杂度提升,GraphRAG和混合方法将在构建可靠LLM应用中发挥越来越重要的作用。

2025-07-16 13:37:15 582

原创 RAGFlow引用机制揭秘:LLM引导与后端验证如何协同工作?

RAGFlow的引用生成机制采用后端计算+前端渲染的工程化设计,核心要点如下: 后端通过独立向量相似度计算生成引用标记[ID:i],确保引用客观性,避免LLM幻觉风险; 前端将标记转换为可交互UI组件,实现职责分离; 提示词仅用于规范LLM生成过程(降低幻觉),不参与最终引用决策。 该设计体现了LLM应用的工程范式:用确定性逻辑(相似度算法)约束生成式模型,通过前后端协作实现可信交互。类似模式适用于工具调用、结构化输出等场景,在保留LLM推理能力的同时确保系统可靠性。

2025-07-15 16:44:19 946

原创 浅析LLM训练(Training)几种典型模式

本文通俗解析了大模型训练的关键概念和流程:预训练获得通用基座模型,后训练针对特定场景优化。后训练包含监督微调(SFT)和强化学习(RL)两个方向——SFT使用标注数据精细调整参数,RL通过奖励机制引导模型行为。通过DeepSeek和Qwen案例,文章展示了V3/R1模型如何从基座模型分化,以及数学模型的训练链条(预训练→SFT→RL)。特别说明强化学习的核心是奖励模型设计,而不同训练方法会产出适应不同场景的模型特性(如V3即时响应、R1深度推理)。全文以信息化从业者视角,将复杂技术术语转化为易理解的类比说明

2025-07-15 16:39:07 558

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除