大模型扬叔-CSDN博客

原创最近，大模型岗位彻底爆了……

2025开年，AI技术打得火热，正在改变程序员的职业命运：阿里云核心业务全部接入Agent体系；字节跳动30%后端岗位要求大模型开发能力；腾讯、京东、百度开放招聘技术岗，80%与AI相关……大模型正在重构技术开发范式，最残忍的是，业务面临转型，领导要求用RAG优化知识库检索，你不会；带AI团队，微调大模型要准备多少数据，你不懂；想转型大模型应用开发工程师等相关岗，没项目实操经验……曾经热门的开发框架、大数据工具等，已不再是就业的金钥匙。

2025-07-17 15:06:43 599

原创知识｜AI智能体（AI Agent）从原理到应用

AIHR新天地](javascript:void(0)😉2025年05月30日 08:56北京各种场合提到AI智能体（AI Agent），那么AI智能体究竟是什么呢？本文简单整理通俗的解读，给大家做参考。AI智能体（AI agent）是指能够自主执行任务的人工智能系统，通常具备学习、推理和决策能力。这些智能体可以在各种领域中运作，如客服、数据分析和自动驾驶等。它们通过分析环境中的数据来做出反应，并不断学习以提高效率和准确性。

2025-07-17 15:03:41 733

原创大模型Agent智能体设计范式

在2024年红杉资本人工智能峰会上，著名的人工智能专家吴恩达发表了一场备受关注的演讲，深入探讨了智能代理（agent）的四大范式。这四大范式代表了当前AI技术在不同应用领域中的核心方法和实践，分别是反思（Reflection）、工具使用（Tool Use）、规划（Planning）和多代理协作（Multi-Agent）。

2025-07-17 14:58:36 845

原创【Agent专题】Agent架构设计：智能体架构设计的9大核心技术全景深解析，附架构图

2025年，AI智能体已经不再是概念模型，它们正在逐步落地为企业级工具、产品模块，而在这背后，一整套系统化的智能体架构，正悄然决定着这些Agent的效率、扩展性与演化方向。如果说大语言模型（LLM）是AI的发动机，那么“智能体架构”就是决定AI能走多远的底盘和驾驶系统。AI智能体的本质是一种具备自主意识的软件，它能够感知环境、进行逻辑推理和决策，并实施相应动作。通过Prompt定义其指令语义，以Switch语句解析下一步行为，以累积上下文维持对任务的持续理解，再由For循环驱动整个执行逻辑。

2025-07-17 14:55:51 906

原创微调模型的各种参数怎么设置？微调的显存消耗如何估算和优化？

在模型微调中，各类参数就像是你在给模型 “补课” 之前制定的教学计划和策略。它们决定了你如何教学、教学的强度以及教学的方向。如果你选择的教学计划不合适（比如补课时间太短、讲解速度太快或复习策略不合理），可能会导致学生学习效果不好。同样，如果你选择的超参数不合适，模型的性能也可能不理想。过去经常收到很多同学的问题：“在微调过程中这些参数到底要怎么设置效果才最好？

2025-07-17 14:50:33 597

原创最强开源Agent！Kimi K2接入Claude Code，爽翻～【喂饭级教程+实测】

Claude Code是由Anthropic开发的一款智能编程工具，它以命令行工具的形式存在，能够集成到开发者的终端环境中。它基于Anthropic的Constitutional AI框架构建，可以以自然语言交互的方式帮助开发者更高效地完成编程任务。我觉得它其实就是一个Agent，还可以接入MCP工具，以及帮你操作底层系统等等，是目前最强的Agent工具了原生Claude Code启动后，大概长下面这样（在。

2025-07-16 15:01:53 773

原创 2025年大模型平台落地路径与实践

大模型技术发展迅速，我国政策大力支持，市场需求旺盛，推动其在各行业落地。但大模型落地面临诸多难题，如顶层规划和需求分析盲目、技术壁垒高、运营管理机制缺失等。大模型平台通过“建、用、管”模型，为大模型落地提供全流程支撑，解决技术转化与工程化应用难题。

2025-07-16 14:59:27 1015

原创「上下文工程」彻底火了，Karpathy一众大佬力荐+1，Agent成败全靠它

继 Vibe Coding 火了之后，Andrej Karpathy 又带火了一个词——Context Engineering 翻译成中文就是：「上下文工程」**。。Andrej Karpathy 作为 AI 领域的标志性人物，他一直都很善于用贴近开发者直觉的语言，去定义一些复杂技术的核心变化趋势，比如 “Software 2.0”、 “Software 3.0”、“Vibe Coding”，还有最近提出的新概念“Bacterial Programming”（细菌编程），基本上是提一个火一个。

2025-07-16 14:58:22 516

原创彻底爆了！一文吃透AIGC、Agent、MCP的概念和关系

• 基于大模型和企业数据AI应用开发，实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能，学会Fine-tuning垂直训练大模型（数据准备、数据蒸馏、大模型部署）一站式掌握；今天贴心为大家准备好了一系列AI大模型资源，包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。第七阶段：以大模型平台应用与开发为主，通过星火大模型，文心大模型等成熟大模型构建大模型行业应用。第一阶段：从大模型系统设计入手，讲解大模型的主要方法；

2025-07-16 14:57:11 789

原创大语言模型（LLM）之更好的搜索增强生成(RAG)方案——RAG-Fusion

当然这样利用大模型去进行搜索query改写，虽然能够带来更丰富的搜索信息，但是性能上会受到损失，产品上的设计一定要考虑这一点。

2025-07-16 14:46:56 830

原创一文学会LangChain搭建Agent工具

Agent（智能代理）是一种能够感知环境、自主决策并执行任务的实体（可以是软件、机器人或系统）。它的核心能力在于自动化、智能化和适应性，广泛应用于多个领域。● 日常重复性工作：自动填写表格、整理数据、发送邮件。● 流程自动化：替代人工完成订单处理、库存管理、报销审批等企业流程。● 案例：企业中的RPA（机器人流程自动化）代理可自动处理财务对账。● 推荐系统：根据用户行为推荐商品（如电商）、内容（如短视频）或音乐（如Spotify）。

2025-07-16 14:46:19 846

原创手把手教你从0搭建一个智能体，全部跟下来你就Agent入门了！（超详细的讲解）

这里先用一小段篇幅带大家快速了解下Coze并进入到指定操作界面。Coze 是字节跳动推出的零代码或低代码智能体开发平台，基于其大模型技术，提供插件系统、长短期记忆、工作流编排等核心能力，支持多模态交互（文本/语音/图像）与多平台发布（如豆包、飞书、Discord），专注构建个人助理、电商客服、内容生成等场景的智能体应用。**Coze网址：**

2025-07-16 14:45:12 822

原创大模型前景怎么样？大模型在各行各业中的应用现状及前景分析，收藏这篇就够了_大模型在制造业的应用前景

大语言模型近年来呈现出爆发式增长的趋势，以OpenAI ChatGPT为代表的私有模型迅速迭代更新，其能力渐渐接近人类的水平。同样，以通义千问、llama为代表的开源大模型也在迅速接近或超过ChatGPT。然而，大语言模型的发展目的终究是为了解决现实生活中的实际问题，大模型在各行各业中的应用情况到底如何？遇到了哪些问题？前景怎么样？本文将基于行业研报对这些问题进行分析和解答。• 软件开发：大模型能够自动生成代码，根据开发者的需求和描述快速提供代码片段，提高开发效率。

2025-05-13 15:45:14 961

原创如何估算大模型训练所需算力？（非常详细）从零基础入门到精通，收藏这篇就够了

ChatGPT横空出世引发了“百模大战”，算力需求成为焦点， GPU卡一时洛阳纸贵。训练一个大模型，究竟需要多少张GPU卡呢？2023年初写了篇文章《》大致总结了一下，但没有提到推导过程，今天有空展开聊聊。据估计，OpenAI训练GPT-4模型，很有可能应用了10000到20000张英伟达A100。按照马斯克的说法，GPT-5的训练可能需要3万到5万张H100，可见随着大模型的迭代发展，训练所需算力也呈爆发性增长。

2025-05-13 15:44:47 1064

原创大模型学习路径，(非常详细）从零基础入门到精通，收藏这篇就够了

在掌握机器学习之前，理解支撑这些算法的基本数学概念非常重要。：这是理解许多算法（特别是深度学习算法）的关键。主要概念包括向量、矩阵、行列式、特征值和特征向量、向量空间以及线性变换。：许多机器学习算法涉及到连续函数的优化，这需要理解导数、积分、极限和级数。多变量微积分以及梯度的概念也很重要。：这些知识对于理解模型如何从数据中学习并进行预测至关重要。主要概念包括概率理论、随机变量、概率分布、期望、方差、协方差、相关性、假设检验、置信区间、最大似然估计和贝叶斯推断。有的时候临时抱佛脚也是可以的。

2025-05-13 15:43:34 1033

原创 AI人才缺口达400万，名校的博士毕业生年薪最高700万（非常详细）从零基础到精通，收藏这篇就够了！

DeepSeek应届生年入百万，名校毕业有很强的优势“我感觉我的人生选择是我坐在这条船上，在即将驶出的时候，我划动了一把船桨，然后选择下船”。应届毕业生林清告诉作者。他同时拿到了大厂和创业新贵的offer，最后，他艰难地做了一个选择——大厂。而自学了11天大模型的许然，在去年毕业季拿到了上海一家医疗公司大模型算法岗的offer，成为AI风口下第一批就业的年轻人。工资开的不算高，仅是大厂的一半，但对非科班出身、没有相关实习经验的他来说这已经是最好的结果。

2025-05-13 15:42:52 833

原创 35 岁不失业秘诀，大模型这个赛道越来越吃香（非常详细)从零基础到精通，收藏这篇就够了！

根据行业报告，近年来**AIGC（AI Generated Content）**领域岗位数量井喷式增长，AI大模型产品经理作为连接技术与市场的桥梁，正扮演着越来越重要的角色。这一趋势的背后，是企业对AI技术应用的迫切需求和对专业人才的高度渴求。然而，市场需求的激增也带来了人才供给的紧张，尤其是既懂技术又懂市场的复合型人才更是难求。是一个在人工智能领域中具有关键作用的职位，他们负责策划、开发和管理基于大规模语言模型（如GPT系列、BERT等）的AI产品。

2025-05-13 15:42:17 856

原创什么是大模型微调？如何对大模型进行微调？大模型入门到精通，收藏这篇就够了

从GPT-3到ChatGPT，再到GPT-4和GitHub Copilot，微调在这些过程中发挥了重要作用。什么是微调？微调能解决哪些问题？LoRA又是什么？如何进行微调？本文将解答上述问题，并通过代码示例展示如何使用LoRA进行微调。微调的技术门槛不高，对于规模不超过100亿参数的模型，所需的硬件成本也不高（100亿参数的模型并非玩具，许多实际应用中会使用这种规模的模型）。即使是非专业的算法人员，也可以尝试微调自己的模型。除了ChatGPT和GitHub Copilot，微调还可以应用于许多其他领域。

2025-04-14 11:50:14 1007

原创从零指令微调一个大模型：从数据清洗到模型训练实操（附代码和测试脚本）

本教程使用🤗HuggingFace TRL框架来完成微调代码的实现。TRL是一个强大且便于使用的微调框架，除了支持SFT外，也能轻松的通过接口调用DPO、PPO、GRPO等流行的强化微调算法。此外也完美兼容Transformers架构。

2025-04-14 11:49:37 1221

原创费曼讲解大模型参数微调——小白也能看懂

人工超级智能（ASI）——聚焦AI数据、算法、思想、伦理等深度洞察，致力于AI先进科技、先进思想、先进文化。23篇原创内容公众号。

2025-04-14 11:49:06 1042

原创从理论到实践：RAG、Agent、微调等6种常见的大模型定制策略 (2)

在这里，重新赋予时间价值，看到不一样观点。10年来，每日更新，从未间断，持续服务百万互联网人33篇原创内容公众号大语言模型（LLM）是基于自监督学习预训练的深度学习模型，训练数据量庞大、训练时间长，并且包含大量的参数。LLM在过去两年中彻底改变了自然语言处理领域，展现了在理解和生成类人文本方面的卓越能力。然而，这些通用模型的开箱即用性能并由于从零开始训练一个LLM模型需要大量的训练数据和资源，这对于中小型团队来说基本不可行。

2025-04-14 11:47:48 807

原创大模型应用开发入门系列(1)：Hello LangChain

我们在以前学习任何语言第一个入门小demo都是写一个Hell World！，同样我们在学习LangChain框架的时候，也以类似输出一个“Hell World！”的简单回复作为我们的入门demo案例在正式开始LangChain的实战学习前，需要配置一下环境。LangChain框架目前支持Python和TypeScript两种语言，这里我们选用处理人工智能更主流的Python语言来进行学习，有关JavaScript LangChain库的文档，可以点击这里。

2025-04-01 11:41:18 843

原创 Java + LangChain = 王炸！

在本教程中，我们将详细探讨。

2025-04-01 11:40:48 927

原创小白入门大模型：LangChain

模型在高层次上有两种不同类型的模型：语言模型（language models）和文本嵌入模型（text embedding models）。文本嵌入模型将文本转换为数字数组，然后我们可以将文本视为向量空间。在上面这个图像中，我们可以看到在一个二维空间中，“king”是“man”，“queen”是“woman”，它们代表不同的事物，但我们可以看到一种相关性模式。这使得语义搜索成为可能，我们可以在向量空间中寻找最相似的文本片段，以满足给定的论点。

2025-04-01 11:40:09 1162

原创有史以来最详细的卷积神经网络(CNN)及其变体讲解！！！

卷积神经网络是多层感知机(MLP)的变种，由生物学家休博尔和维瑟尔在早期关于猫视觉皮层的研究发展而来，视觉皮层的细胞存在一个复杂的构造，这些细胞对视觉输入空间的子区域非常敏感，称之为感受野。

2025-04-01 11:39:25 1167

原创了解卷积神经网络，看这一篇就够了！

*卷积神经网络（CNNs）**是现代深度学习领域的基础模型之一，其设计充分利用了图像数据的局部相关性和空间结构特点。在。

2025-04-01 11:38:12 989

原创最新AI大模型数据集解决方案：分享两种AI高质量代码数据集生产方案

随着AI大模型技术的快速发展，自动化的数据抓取工具逐渐成为了主流，尤其是在需要快速、高效、可定制化的数据抓取时，Web Scraper API工具成为了许多开发者和数据科学家的首选工具。与第一种方式不同，Web Scraper API工具提供了图形化界面以及灵活的配置选项，能够帮助用户更快、更高效地抓取数据。

2025-03-19 15:38:06 784

原创 AI大模型训练微调与数据集准备的系统性教程

为复杂任务配置多 GPU 环境并自定义依赖。从头构建自定义数据集并支持多模态数据。除了 Unsloth，还有许多工具适用于大型语言模型的微调。以下是几个主流工具的介绍及其特点。Unsloth：适合单 GPU 快速实验，易用性高，推荐初学者和资源有限时使用。DeepSpeed：适合多 GPU 大规模训练，适用于工业级任务。Megatron-LM：专注于超大规模模型，适合研究人员。FairScale：PyTorch 扩展，适合分布式训练场景。

2025-03-19 14:57:25 1723

原创 Ai大模型agent LangChain入门环境搭建2025最新

Ai大模型agent LangChain入门环境搭建2025最新真的从0到1，跑出代码！（可能格式问题，电脑浏览器更佳！因为自己淋过雨，所以想给你打把伞~LangChain入门此处为语雀内容卡片，点击链接查看：https://www.yuque.com/qiaokate/su87gb/iawv1isi0qu6fktx环境配置：Ubuntu 18或20都可以。

2025-03-19 14:56:08 1034

原创 5分钟教你不写一行代码微调构建属于你的大模型（使用llama-factory微调Qwen大模型）

训练时为保证大模型的通用能力会使用多类别数据，例如：数学类别，代码类别数据等等来训练。训练后的大模型是一个“博学家”，具备回答所有类别基础问题的能力，但是在面对更深度的专业领域问题时，大模型的表现往往一般。为了让大模型在某个专业领域具备突出能力，需要使用专业领域的数据集，对大模型进行进一步的参数微调（继续训练），提升它在专业领域方面的表现。关于微调的概念大家可参考我的博文不懂这些概念，你敢说你了解大模型嘛？（一）—大模型“瘦身”指南。

2025-03-19 14:54:05 892

原创 4 步速通 LLM 微调：手把手带你用 SiliconCloud 打造领域大模型

此前，SiliconCloud 上线了语言模型的。通过简单的上传语料数据、创建微调任务，就可以获得专属微调语言模型。最近，SiliconCloud 的 LLM 在线 LoRA 微调，更是扩展了 Qwen2.5-32B、Qwen2.5-14B 以及 Llama-3.1-8B 模型作为微调基座模型，进一步丰富了微调的可玩性，也进一步降低了微调模型的训练、使用成本。事实上，微调一个自己的专属大语言模型非常简单。

2025-03-19 14:48:15 718

原创【全网首发】Llama3 微调项目实践与教程（XTuner 版）

Llama 3 近期重磅发布，发布了 8B 和 70B 参数量的模型，XTuner 团队对 Llama 3 微调进行了光速支持！！！同时开源社区中涌现了 Llama3-XTuner-CN 手把手教大家使用 XTuner 微调 Llama 3 模型。XTuner：（文明点击阅读原文可直达）首先我们来回顾一下 Llama 3 亮点概览～

2025-03-19 14:40:31 1290

原创大模型微调技术详解：从理论到实践

大模型微调技术为AI应用提供了强大的定制化能力，使通用模型能够适应特定领域和任务需求。随着大模型广泛使用，使更多开发者能够创建自己的专业模型。无论是提升专业领域的回答质量，还是塑造特定的回答风格，微调都是一个强大而实用的工具。对于想要深入学习的读者，建议从小规模实验开始，逐步掌握数据准备、参数调整的技巧，最终构建满足特定需求的个性化大模型。

2025-03-18 14:06:10 1226

原创 Java大模型开发框架LangChain4j从入门到精通：对话和记忆

low-level模型api。提供generate方法用于对话，可以接收单个或多个消息。

2025-03-18 13:51:18 1170

原创大模型应用开发LangChain4j核心知识点和学习路线图

定义：RAG 通过在向 LLM 发送提示前检索并注入相关信息，减少失误，提升回答准确性。向量搜索：通过嵌入模型将文本转换为向量，基于余弦相似度匹配相关内容。混合搜索：结合向量搜索与关键词搜索（如 Azure AI Search 支持）。

2025-03-18 13:50:20 927

原创 Java程序员转型大模型应用开发：掌握这12步就够了！

Java程序员的核心竞争力在于企业级系统架构能力。

2025-03-18 13:49:30 886

原创大模型应用开发LangChain4j RAG实战实现向量存储的两种方案

LangChain4j 是一个用于构建和操作语言模型（LLM）应用的 Java 框架。通过实际的项目功能案例，看LangChain4j如何提高你开发AI应用的工程能力，帮助你逐步掌握该框架的核心概念和高级功能。AI专栏软件环境。

2025-03-18 13:45:55 782

原创告别Ollama，Java开发者专属LLM引擎来了

目前 Jlama 虽然提供的都是些小模型，适用于边缘设备应用场景，但 Jlama 让在 Java 生态中使用 LLM 变得更加简单和高效。无论是构建企业级应用还是开发创新项目，Jlama 都是一个值得关注的选择。

2025-03-18 13:43:19 829

原创 2万字长文！一文了解Attention，从MHA到DeepSeek MLA，大量图解，非常详细！

对于一个输入序列中的某个词，都会与序列中的所有词计算相关性。假设有一个输入序列：对于每个词，我们计算它与所有其他词的相关性，并赋予不同的权重，然后将这些信息进行加权求和，得到新的表示。当前这里的每个词都要在经过Embedding之后，再做权重转换。

2025-03-12 14:27:27 1397

原创 llm-engineer-toolkit：汇集120种大模型工程师必备库，从零基础到精通，理论与实践结合的最佳路径！

llm-engineer-toolkit 汇集了从提示工程（Prompt Engineering）、模型微调（Fine-tuning）到推理优化（Inference Optimization）等等超过 120 种 LLM（大模型）应用的开发涉及多个复杂环节的工具库。

2025-03-12 14:26:54 790

JAVA核心面试知识梳理大全.pdf

空空如也