自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(869)
  • 资源 (1)
  • 收藏
  • 关注

原创 最近,大模型岗位彻底爆了……

2025开年,AI技术打得火热,正在改变程序员的职业命运:阿里云核心业务全部接入Agent体系;字节跳动30%后端岗位要求大模型开发能力;腾讯、京东、百度开放招聘技术岗,80%与AI相关……大模型正在重构技术开发范式,最残忍的是,业务面临转型,领导要求用RAG优化知识库检索,你不会;带AI团队,微调大模型要准备多少数据,你不懂;想转型大模型应用开发工程师等相关岗,没项目实操经验……曾经热门的开发框架、大数据工具等,已不再是就业的金钥匙。

2025-07-17 15:06:43 599

原创 知识|AI智能体(AI Agent)从原理到应用

AIHR新天地](javascript:void(0)😉2025年05月30日 08:56北京各种场合提到AI智能体(AI Agent),那么AI智能体究竟是什么呢?本文简单整理通俗的解读,给大家做参考。AI智能体(AI agent)是指能够自主执行任务的人工智能系统,通常具备学习、推理和决策能力。这些智能体可以在各种领域中运作,如客服、数据分析和自动驾驶等。它们通过分析环境中的数据来做出反应,并不断学习以提高效率和准确性。

2025-07-17 15:03:41 733

原创 大模型Agent智能体设计范式

在2024年红杉资本人工智能峰会上,著名的人工智能专家吴恩达发表了一场备受关注的演讲,深入探讨了智能代理(agent)的四大范式。这四大范式代表了当前AI技术在不同应用领域中的核心方法和实践,分别是反思(Reflection)、工具使用(Tool Use)、规划(Planning)和多代理协作(Multi-Agent)。

2025-07-17 14:58:36 845

原创 【Agent专题】Agent架构设计:智能体架构设计的9大核心技术全景深解析,附架构图

2025年,AI智能体已经不再是概念模型,它们正在逐步落地为企业级工具、产品模块,而在这背后,一整套系统化的智能体架构,正悄然决定着这些Agent的效率、扩展性与演化方向。如果说大语言模型(LLM)是AI的发动机,那么“智能体架构”就是决定AI能走多远的底盘和驾驶系统。AI智能体的本质是一种具备自主意识的软件,它能够感知环境、进行逻辑推理和决策,并实施相应动作。通过Prompt定义其指令语义,以Switch语句解析下一步行为,以累积上下文维持对任务的持续理解,再由For循环驱动整个执行逻辑。

2025-07-17 14:55:51 906

原创 微调模型的各种参数怎么设置?微调的显存消耗如何估算和优化?

在模型微调中,各类参数就像是你在给模型 “补课” 之前制定的教学计划和策略。它们决定了你如何教学、教学的强度以及教学的方向。如果你选择的教学计划不合适(比如补课时间太短、讲解速度太快或复习策略不合理),可能会导致学生学习效果不好。同样,如果你选择的超参数不合适,模型的性能也可能不理想。过去经常收到很多同学的问题:“在微调过程中这些参数到底要怎么设置效果才最好?

2025-07-17 14:50:33 597

原创 最强开源Agent!Kimi K2接入Claude Code,爽翻~【喂饭级教程+实测】

Claude Code是由Anthropic开发的一款智能编程工具,它以命令行工具的形式存在,能够集成到开发者的终端环境中。它基于Anthropic的Constitutional AI框架构建,可以以自然语言交互的方式帮助开发者更高效地完成编程任务。我觉得它其实就是一个Agent,还可以接入MCP工具,以及帮你操作底层系统等等,是目前最强的Agent工具了原生Claude Code启动后,大概长下面这样(在。

2025-07-16 15:01:53 773

原创 2025年大模型平台落地路径与实践

大模型技术发展迅速,我国政策大力支持,市场需求旺盛,推动其在各行业落地。但大模型落地面临诸多难题,如顶层规划和需求分析盲目、技术壁垒高、运营管理机制缺失等。大模型平台通过“建、用、管”模型,为大模型落地提供全流程支撑,解决技术转化与工程化应用难题。

2025-07-16 14:59:27 1015

原创 「上下文工程」彻底火了,Karpathy一众大佬力荐+1,Agent成败全靠它

继 Vibe Coding 火了之后,Andrej Karpathy 又带火了一个词——Context Engineering 翻译成中文就是:「上下文工程」**。。Andrej Karpathy 作为 AI 领域的标志性人物,他一直都很善于用贴近开发者直觉的语言,去定义一些复杂技术的核心变化趋势,比如 “Software 2.0”、 “Software 3.0”、“Vibe Coding”,还有最近提出的新概念“Bacterial Programming”(细菌编程),基本上是提一个火一个。

2025-07-16 14:58:22 516

原创 彻底爆了!一文吃透AIGC、Agent、MCP的概念和关系

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;今天贴心为大家准备好了一系列AI大模型资源,包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

2025-07-16 14:57:11 789

原创 大语言模型(LLM)之更好的搜索增强生成(RAG)方案——RAG-Fusion

当然这样利用大模型去进行搜索query改写,虽然能够带来更丰富的搜索信息,但是性能上会受到损失,产品上的设计一定要考虑这一点。

2025-07-16 14:46:56 830

原创 一文学会LangChain搭建Agent工具

Agent(智能代理)是一种能够感知环境、自主决策并执行任务的实体(可以是软件、机器人或系统)。它的核心能力在于自动化、智能化和适应性,广泛应用于多个领域。● 日常重复性工作:自动填写表格、整理数据、发送邮件。● 流程自动化:替代人工完成订单处理、库存管理、报销审批等企业流程。● 案例:企业中的RPA(机器人流程自动化)代理可自动处理财务对账。● 推荐系统:根据用户行为推荐商品(如电商)、内容(如短视频)或音乐(如Spotify)。

2025-07-16 14:46:19 846

原创 手把手教你从0搭建一个智能体,全部跟下来你就Agent入门了!(超详细的讲解)

这里先用一小段篇幅带大家快速了解下Coze并进入到指定操作界面。Coze 是字节跳动推出的零代码或低代码智能体开发平台,基于其大模型技术,提供插件系统、长短期记忆、工作流编排等核心能力,支持多模态交互(文本/语音/图像)与多平台发布(如豆包、飞书、Discord),专注构建个人助理、电商客服、内容生成等场景的智能体应用。**Coze网址:**

2025-07-16 14:45:12 822

原创 大模型前景怎么样?大模型在各行各业中的应用现状及前景分析,收藏这篇就够了_大模型在制造业的应用前景

大语言模型近年来呈现出爆发式增长的趋势,以OpenAI ChatGPT为代表的私有模型迅速迭代更新,其能力渐渐接近人类的水平。同样,以通义千问、llama为代表的开源大模型也在迅速接近或超过ChatGPT。然而,大语言模型的发展目的终究是为了解决现实生活中的实际问题,大模型在各行各业中的应用情况到底如何?遇到了哪些问题?前景怎么样?本文将基于行业研报对这些问题进行分析和解答。• 软件开发:大模型能够自动生成代码,根据开发者的需求和描述快速提供代码片段,提高开发效率。

2025-05-13 15:45:14 961

原创 如何估算大模型训练所需算力?(非常详细)从零基础入门到精通,收藏这篇就够了

ChatGPT横空出世引发了“百模大战”,算力需求成为焦点, GPU卡一时洛阳纸贵。训练一个大模型,究竟需要多少张GPU卡呢?2023年初写了篇文章《》大致总结了一下,但没有提到推导过程,今天有空展开聊聊。据估计,OpenAI训练GPT-4模型,很有可能应用了10000到20000张英伟达A100。按照马斯克的说法,GPT-5的训练可能需要3万到5万张H100,可见随着大模型的迭代发展,训练所需算力也呈爆发性增长。

2025-05-13 15:44:47 1064

原创 大模型学习路径,(非常详细)从零基础入门到精通,收藏这篇就够了

在掌握机器学习之前,理解支撑这些算法的基本数学概念非常重要。:这是理解许多算法(特别是深度学习算法)的关键。主要概念包括向量、矩阵、行列式、特征值和特征向量、向量空间以及线性变换。:许多机器学习算法涉及到连续函数的优化,这需要理解导数、积分、极限和级数。多变量微积分以及梯度的概念也很重要。:这些知识对于理解模型如何从数据中学习并进行预测至关重要。主要概念包括概率理论、随机变量、概率分布、期望、方差、协方差、相关性、假设检验、置信区间、最大似然估计和贝叶斯推断。有的时候临时抱佛脚也是可以的。

2025-05-13 15:43:34 1033

原创 AI人才缺口达400万,名校的博士毕业生年薪最高700万(非常详细)从零基础到精通,收藏这篇就够了!

DeepSeek应届生年入百万,名校毕业有很强的优势“我感觉我的人生选择是我坐在这条船上,在即将驶出的时候,我划动了一把船桨,然后选择下船”。应届毕业生林清告诉作者。他同时拿到了大厂和创业新贵的offer,最后,他艰难地做了一个选择——大厂。而自学了11天大模型的许然,在去年毕业季拿到了上海一家医疗公司大模型算法岗的offer,成为AI风口下第一批就业的年轻人。工资开的不算高,仅是大厂的一半,但对非科班出身、没有相关实习经验的他来说这已经是最好的结果。

2025-05-13 15:42:52 833

原创 35 岁不失业秘诀,大模型这个赛道越来越吃香(非常详细)从零基础到精通,收藏这篇就够了!

根据行业报告,近年来**AIGC(AI Generated Content)**领域岗位数量井喷式增长,AI大模型产品经理作为连接技术与市场的桥梁,正扮演着越来越重要的角色。这一趋势的背后,是企业对AI技术应用的迫切需求和对专业人才的高度渴求。然而,市场需求的激增也带来了人才供给的紧张,尤其是既懂技术又懂市场的复合型人才更是难求。是一个在人工智能领域中具有关键作用的职位,他们负责策划、开发和管理基于大规模语言模型(如GPT系列、BERT等)的AI产品。

2025-05-13 15:42:17 856

原创 什么是大模型微调?如何对大模型进行微调?大模型入门到精通,收藏这篇就够了

从GPT-3到ChatGPT,再到GPT-4和GitHub Copilot,微调在这些过程中发挥了重要作用。什么是微调?微调能解决哪些问题?LoRA又是什么?如何进行微调?本文将解答上述问题,并通过代码示例展示如何使用LoRA进行微调。微调的技术门槛不高,对于规模不超过100亿参数的模型,所需的硬件成本也不高(100亿参数的模型并非玩具,许多实际应用中会使用这种规模的模型)。即使是非专业的算法人员,也可以尝试微调自己的模型。除了ChatGPT和GitHub Copilot,微调还可以应用于许多其他领域。

2025-04-14 11:50:14 1007

原创 从零指令微调一个大模型:从数据清洗到模型训练实操(附代码和测试脚本)

本教程使用🤗HuggingFace TRL框架来完成微调代码的实现。TRL是一个强大且便于使用的微调框架,除了支持SFT外,也能轻松的通过接口调用DPO、PPO、GRPO等流行的强化微调算法。此外也完美兼容Transformers架构。

2025-04-14 11:49:37 1221

原创 费曼讲解大模型参数微调——小白也能看懂

人工超级智能(ASI)——聚焦AI数据、算法、思想、伦理等深度洞察,致力于AI先进科技、先进思想、先进文化。23篇原创内容公众号。

2025-04-14 11:49:06 1042

原创 从理论到实践:RAG、Agent、微调等6种常见的大模型定制策略 (2)

在这里,重新赋予时间价值,看到不一样观点。10年来,每日更新,从未间断,持续服务百万互联网人33篇原创内容公众号大语言模型(LLM)是基于自监督学习预训练的深度学习模型,训练数据量庞大、训练时间长,并且包含大量的参数。LLM在过去两年中彻底改变了自然语言处理领域,展现了在理解和生成类人文本方面的卓越能力。然而,这些通用模型的开箱即用性能并由于从零开始训练一个LLM模型需要大量的训练数据和资源,这对于中小型团队来说基本不可行。

2025-04-14 11:47:48 807

原创 大模型应用开发入门系列(1):Hello LangChain

我们在以前学习任何语言第一个入门小demo都是写一个Hell World!,同样我们在学习LangChain框架的时候,也以类似输出一个“Hell World!”的简单回复作为我们的入门demo案例在正式开始LangChain的实战学习前,需要配置一下环境。LangChain框架目前支持Python和TypeScript两种语言,这里我们选用处理人工智能更主流的Python语言来进行学习,有关JavaScript LangChain库的文档,可以点击这里。

2025-04-01 11:41:18 843

原创 Java + LangChain = 王炸!

在本教程中,我们将详细探讨。

2025-04-01 11:40:48 927

原创 小白入门大模型:LangChain

模型在高层次上有两种不同类型的模型:语言模型(language models)和文本嵌入模型(text embedding models)。文本嵌入模型将文本转换为数字数组,然后我们可以将文本视为向量空间。在上面这个图像中,我们可以看到在一个二维空间中,“king”是“man”,“queen”是“woman”,它们代表不同的事物,但我们可以看到一种相关性模式。这使得语义搜索成为可能,我们可以在向量空间中寻找最相似的文本片段,以满足给定的论点。

2025-04-01 11:40:09 1162

原创 有史以来最详细的卷积神经网络(CNN)及其变体讲解!!!

卷积神经网络是多层感知机(MLP)的变种,由生物学家休博尔和维瑟尔在早期关于猫视觉皮层的研究发展而来,视觉皮层的细胞存在一个复杂的构造,这些细胞对视觉输入空间的子区域非常敏感,称之为感受野。

2025-04-01 11:39:25 1167

原创 了解卷积神经网络,看这一篇就够了!

*卷积神经网络(CNNs)**是现代深度学习领域的基础模型之一,其设计充分利用了图像数据的局部相关性和空间结构特点。在。

2025-04-01 11:38:12 989

原创 最新AI大模型数据集解决方案:分享两种AI高质量代码数据集生产方案

随着AI大模型技术的快速发展,自动化的数据抓取工具逐渐成为了主流,尤其是在需要快速、高效、可定制化的数据抓取时,Web Scraper API工具成为了许多开发者和数据科学家的首选工具。与第一种方式不同,Web Scraper API工具提供了图形化界面以及灵活的配置选项,能够帮助用户更快、更高效地抓取数据。

2025-03-19 15:38:06 784

原创 AI大模型训练微调与数据集准备的系统性教程

为复杂任务配置多 GPU 环境并自定义依赖。从头构建自定义数据集并支持多模态数据。除了 Unsloth,还有许多工具适用于大型语言模型的微调。以下是几个主流工具的介绍及其特点。Unsloth:适合单 GPU 快速实验,易用性高,推荐初学者和资源有限时使用。DeepSpeed:适合多 GPU 大规模训练,适用于工业级任务。Megatron-LM:专注于超大规模模型,适合研究人员。FairScale:PyTorch 扩展,适合分布式训练场景。

2025-03-19 14:57:25 1723

原创 Ai大模型agent LangChain入门环境搭建2025最新

Ai大模型agent LangChain入门环境搭建2025最新真的从0到1,跑出代码!(可能格式问题,电脑浏览器更佳!因为自己淋过雨,所以想给你打把伞~LangChain入门此处为语雀内容卡片,点击链接查看:https://www.yuque.com/qiaokate/su87gb/iawv1isi0qu6fktx环境配置:Ubuntu 18或20都可以。

2025-03-19 14:56:08 1034

原创 5分钟教你不写一行代码微调构建属于你的大模型(使用llama-factory微调Qwen大模型)

训练时为保证大模型的通用能力会使用多类别数据,例如:数学类别,代码类别数据等等来训练。训练后的大模型是一个“博学家”,具备回答所有类别基础问题的能力,但是在面对更深度的专业领域问题时,大模型的表现往往一般。为了让大模型在某个专业领域具备突出能力,需要使用专业领域的数据集,对大模型进行进一步的参数微调(继续训练),提升它在专业领域方面的表现。关于微调的概念大家可参考我的博文不懂这些概念,你敢说你了解大模型嘛?(一)—大模型“瘦身”指南。

2025-03-19 14:54:05 892

原创 4 步速通 LLM 微调:手把手带你用 SiliconCloud 打造领域大模型

此前,SiliconCloud 上线了语言模型的。通过简单的上传语料数据、创建微调任务,就可以获得专属微调语言模型。最近,SiliconCloud 的 LLM 在线 LoRA 微调,更是扩展了 Qwen2.5-32B、Qwen2.5-14B 以及 Llama-3.1-8B 模型作为微调基座模型,进一步丰富了微调的可玩性,也进一步降低了微调模型的训练、使用成本。事实上,微调一个自己的专属大语言模型非常简单。

2025-03-19 14:48:15 718

原创 【全网首发】Llama3 微调项目实践与教程(XTuner 版)

Llama 3 近期重磅发布,发布了 8B 和 70B 参数量的模型,XTuner 团队对 Llama 3 微调进行了光速支持!!!同时开源社区中涌现了 Llama3-XTuner-CN 手把手教大家使用 XTuner 微调 Llama 3 模型。XTuner:(文明点击阅读原文可直达)首先我们来回顾一下 Llama 3 亮点概览~

2025-03-19 14:40:31 1290

原创 大模型微调技术详解:从理论到实践

大模型微调技术为AI应用提供了强大的定制化能力,使通用模型能够适应特定领域和任务需求。随着大模型广泛使用,使更多开发者能够创建自己的专业模型。无论是提升专业领域的回答质量,还是塑造特定的回答风格,微调都是一个强大而实用的工具。对于想要深入学习的读者,建议从小规模实验开始,逐步掌握数据准备、参数调整的技巧,最终构建满足特定需求的个性化大模型。

2025-03-18 14:06:10 1226

原创 Java大模型开发框架LangChain4j从入门到精通:对话和记忆

low-level模型api。提供generate方法用于对话,可以接收单个或多个消息。

2025-03-18 13:51:18 1170

原创 大模型应用开发LangChain4j核心知识点和学习路线图

定义:RAG 通过在向 LLM 发送提示前检索并注入相关信息,减少失误,提升回答准确性。向量搜索:通过嵌入模型将文本转换为向量,基于余弦相似度匹配相关内容。混合搜索:结合向量搜索与关键词搜索(如 Azure AI Search 支持)。

2025-03-18 13:50:20 927

原创 Java程序员转型大模型应用开发:掌握这12步就够了!

Java程序员的核心竞争力在于企业级系统架构能力。

2025-03-18 13:49:30 886

原创 大模型应用开发LangChain4j RAG实战实现向量存储的两种方案

LangChain4j 是一个用于构建和操作语言模型(LLM)应用的 Java 框架。通过实际的项目功能案例,看LangChain4j如何提高你开发AI应用的工程能力,帮助你逐步掌握该框架的核心概念和高级功能。AI专栏软件环境。

2025-03-18 13:45:55 782

原创 告别Ollama,Java开发者专属LLM引擎来了

目前 Jlama 虽然提供的都是些小模型,适用于边缘设备应用场景 ,但 Jlama 让在 Java 生态中使用 LLM 变得更加简单和高效。无论是构建企业级应用还是开发创新项目,Jlama 都是一个值得关注的选择。

2025-03-18 13:43:19 829

原创 2万字长文!一文了解Attention,从MHA到DeepSeek MLA,大量图解,非常详细!

对于一个输入序列中的某个词,都会与序列中的所有词计算相关性。假设有一个输入序列:对于每个词 ,我们计算它与所有其他词的相关性,并赋予不同的权重,然后将这些信息进行加权求和,得到新的表示。当前这里的每个词都要在经过Embedding之后,再做权重转换。

2025-03-12 14:27:27 1397

原创 llm-engineer-toolkit:汇集120种大模型工程师必备库,从零基础到精通,理论与实践结合的最佳路径!

llm-engineer-toolkit 汇集了从提示工程(Prompt Engineering)、模型微调(Fine-tuning)到推理优化(Inference Optimization)等等超过 120 种 LLM(大模型)应用的开发涉及多个复杂环节的工具库。

2025-03-12 14:26:54 790

JAVA核心面试知识梳理大全.pdf

本资源为公共资源,总页数283页,涵盖技术点:java基础,并发编程,源码,微服务,分布式,数据库,算法,设计模式等。

2020-08-06

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除