智泊AI大模型从5月底开始推出AI³公开课,助力AI开发者、爱好者解锁AI时代核心竞争力,实现AI技能的立方级成长。
本文是AI³公开课系列中入门章节《AIGC理论基础:大模型通识》,作者是AI大学堂合作伙伴、资深算法工程师、CSDN博客之星第一名刘洋老师。刘洋老师也曾获得多项AI顶级比赛的Top名次,授权多项发明专利。
同学们也可点击学习完整版视频课程。话不多说,我们直接进入正题。
文章目录
**
**
1. 大模型基本概念
大模型(LLM)的英文全称为Large Language Model,从狭义上指的是为自然语言处理(NLP)任务设计的机器学习模型。广义上还包括多模态大模型和科学计算大模型等。
可能会有同学提出疑问,多模态中的模态具体的含义是什么。简单来说,模态指的是数据的类型,其中包括文本、图像、语音、视频等。
而多模态大模型分为以下两大类:
- 输入和输出属于单一且不同模态,例如文本到图像,图像到文本
- 输入或者输出为多模态,例如能同时处理文本和图像的系统
在自然语言处理中,token(词元)是文本处理的基本单位,而tokenizer是将输入文本拆分并映射成token id的工具。token在自然语言处理中就像汉字一样,是构成文本的基本单位。tokenizer的功能比传统字典更智能——它不仅能像字典那样识别每个汉字,更重要的是能像语文老师一样,将连续的句子合理地划分成有意义的词语或字符。
这里以Meta-Llama-3-8B为例,可以看到对中文和英文分词的结果不太一样,中文分词后的token为字或者词,而英文切分后的token往往是词根词缀。
2. 大模型基本原理
2.1 大模型发展脉络
大模型架构分为Encoder-Only、Encoder-Decoder、Decoder-Only三种,这三种架构均源于Transformer模型。
**
**
2.2 大模型核心结构
**注意力机制(Attention Mechanism)**是Transformer模型的核心,它使模型能够动态地关注输入序列中的不同部分。注意力机制允许模型直接建立序列中任意位置元素之间的联系,有效捕捉长距离依赖关系。
相比传统的循环神经网络(RNN),Transformer具有以下优势:
- 长距离依赖建模:通过自注意力机制,Transformer能够直接建立序列中任意位置元素之间的联系,有效捕捉长距离依赖关系,而RNN在处理长序列时容易出现信息丢失。
- 避免梯度问题:Transformer架构避免了RNN中常见的梯度消失和梯度爆炸问题,使模型能够学习更长的序列依赖。
- 全局感受野:与CNN的局部感受野不同,Transformer的每个位置都能直接获取全局信息,无需通过多层堆叠来扩大感受野。
**
**
2.3 大模型训练及应用过程
大模型训练需要以下资源:
- 海量数据:包括互联网网页(如Common Crawl抓取的数十亿网页)、百科全书(如维基百科、百度百科的数千万页面)、书籍和文章(大量数字化图书和学术论文)以及代码库(用于训练模型理解和生成编程语言的代码片段)。
- 强大算力:通常使用GPU/TPU集群支持。
- 参数调整:优化模型权重。
**
**
3. 大模型能力范围
大模型的能力范围主要包括:
-
文本生成:创作各种类型的文本,如文章、故事、诗歌、邮件、产品描述、广告文案
-
文本分类:将文本划分到预先定义的类别中
-
情感分析:判断文本所表达的情感倾向(如积极、消极、中性)
-
知识问答:基于提供的上下文或其内部知识库回答问题
-
代码生成:编写代码片段,解释代码逻辑,调试代码错误,生成代码文档
-
语言翻译:在多种语言之间进行文本翻译
-
文本摘要:将长篇大论文章压缩成关键要点
**
**
4. 大模型优势与不足
4.1 大模型优势
1)提升工作效率
通过对大量数据的学习和分析,自动执行繁琐任务
- 自动化繁琐任务:数据整理、分析、报告生成
- 释放人力专注核心工作:减少重复劳动时间
- 快速处理复杂问题:基于海量数据的精准决策
2)激发创新能力
通过对大量知识的学习,AI大模型能够为我们提供丰富的创意来源,进行多样化的思维训练,有助于我们在面对新挑战时,更加自信地做出创新的解决方案。
- 知识库支持:提供跨领域解决方案灵感
- 创意拓展:模拟场景生成创新方案
- 思维训练:通过交互突破认知边界
**
**
4.2 大模型能力不足
1)模型幻觉/事实不准确性
大模型有时会生成看似合理但实际上不正确或与事实不符的信息(即"幻觉")。
2)知识过时
LLM的知识被"冻结"在其训练数据的时间点,对于需要实时信息或快速发展的领域,LLM的知识很快就会过时。
3)训练成本高昂
对LLM进行全面的再训练或针对特定领域进行微调需要巨大的计算资源和时间,成本非常高昂。例如:
- 2017年 Transformer (谷歌): 930$
- 2018年 BERT-Large (谷歌): 3,288$
- 2020年 GPT-3 175B (OpenAI): 4,324,883$
- 2023年 GPT-4 (OpenAI): 78,352,034$
- 2023年 Gemini Ultra (谷歌): 191,400,000$
5. 大模型发展现状
5.1 从一方独霸到群雄逐鹿
当前大模型发展呈现多家竞争的态势:
- OpenAI:持续推出GPT系列模型,如GPT-4o,支持多模态交互,并在语言理解、生成能力上保持领先
- Anthropic:由OpenAI前高管成立,专注安全可靠的大模型,代表作为Claude 3.5和Claude 3.7系列
- DeepSeek:最新发布的DeepSeek-R1是深度学习领域的突破之一,凭借高性能、低成本、高开放性三大核心优势,在全球范围内引发强烈反响
- 科大讯飞:依托全国产算力智算平台,最新发布的讯飞星火4.0 Turbo及深度推理模型X1,对标GPT-4o,在复杂、代码、长文本等场景下推理等场达到国际一流水平
- 阿里巴巴:持续推出Qwen系列模型,最新发布的Qwen3系列模型包含多个参数规模的模型,并支持119种语言和方言
**
**
5.2 模型上下文长度不断增加
大模型在处理长文本方面的能力不断提升:
- 长文本处理:直接总结长文本,无需分段或滑动窗口
- 问答增强:增加RAG的容错能力,提升文本的召回率
- 智能体:长上下文增加了"智能体"的记忆能力
各大模型厂商在上下文长度方面的进展:
- Google:推出的Gemini 1.5 Pro及续航的Gemini 2.0 Flash模型,支持高达100万tokens的上下文窗口,并特别强调了其在处理多模态(文本、图像、音频、视频)任务上的优势
- Anthropic:是长上下文窗口的早期探索者之一,其Claude 2模型上下文达到100K,后续的Claude 3.5 Sonnet和Claude 3.7 Sonnet模型支持200K tokens
- OpenAI:OpenAI的GPT-4系列后续模型,如GPT-4o,以及专注于推理的o1和o3-mini模型,提供了128K至200K tokens的上下文窗口
- Meta Llama:Meta的开源Llama系列模型也在不断扩展上下文长度,Llama 3.1、3.2和3.3版本均支持128K tokens
**
**
5.3 模型输出模态不断增加
大模型的能力正在从纯文本向多模态方向扩展:
-
多模理解:上传图片素材,大模型完成识别理解,返回关于图片的准确描述
-
视觉问答:回答上传图片素材,应用户的问题,大模型完成回答
-
多模生成:根据用户的描述,生成符合要求的合成音频和视频
-
虚拟人视频:描述期望的视频内容,基于AI虚拟人,快速生成配视频
**
**
6. 大模型分类
6.1 按模态分类
大模型可以根据处理的数据类型分为:
- 大语言模型:能够理解和生成文本数据的大模型,其主要特点是基于海量文本数据训练而成,其代表作品是OpenAI的GPT系列模型、谷歌Gemini、讯飞星火X1
- 语音大模型:能够理解和生成语音数据的大模型,其主要特点是基于语音数据训练而成,能够转换和识别语音,提取音频特征,进行语音合成等功能,代表作品为OpenAI的语音大模型Whisper、讯飞星火
- 多模态大模型:能够处理文本、图像等多模态数据的大模型,这类模型结合了自然语言处理与计算机视觉技术能力,可以多模态输出进行多模型分析,代表产品为OpenAI的GPT-4o、讯飞星火X4.0 Turbo
**
**
6.2 按训练过程和功能定位分类
1)基座模型(Base Model)
基座模型是大模型体系的基础,通过大规模多样化数据训练,具备广泛通用知识和基础能力,能够下游任务提供丰富知识储备和基础架构,是后续模型训练的基石。最新的研究表明:基座模型的能力会锁死推理模型的上限。但基座模型并不能直接回答用户的问题,这里以DeepSeek-V3-Base为例:
2)聊天模型(Chat Model)
聊天模型专注于自然语言交互,基于大量对话数据训练,可理解用户问题,生成流畅、符合语境的回复,模拟人类对话方式,实现人机自然问答、高效交流,广泛应用于智能客服、陪伴聊天等场景。
3)推理模型(Inference Model)
推理模型是先生成思维链,再生成回复内容。它通过对输入信息深度分析、关联和判断,解决复杂问题。它从数据中挖掘潜在关系和知识,能够有效完成数学分析、逻辑推理等任务。
**
**
6.3 按开源情况分类
- 闭源大模型:由企业或机构完全掌控模型架构、训练数据和核心技术,仅通过API或商业产品提供服务。典型代表包括OpenAI的GPT-4o、Anthropic的Claude3.7、讯飞星火4.0 Turbo等深度推理模型等。
析、关联和判断,解决复杂问题。它从数据中挖掘潜在关系和知识,能够有效完成数学分析、逻辑推理等任务。
[外链图片转存中…(img-fdHPIbAi-1750327312482)]
**
**
6.3 按开源情况分类
- 闭源大模型:由企业或机构完全掌控模型架构、训练数据和核心技术,仅通过API或商业产品提供服务。典型代表包括OpenAI的GPT-4o、Anthropic的Claude3.7、讯飞星火4.0 Turbo等深度推理模型等。
- 开源大模型:公开模型架构和完整权重参数,允许自由使用、修改和分发。例如Mistral系列模型、DeepSeek系列模型、讯飞的FlytekSpark-13B模型等。
大模型岗位需求
大模型时代,企业对人才的需求变了,AIGC相关岗位人才难求,薪资持续走高,AI运营薪资平均值约18457元,AI工程师薪资平均值约37336元,大模型算法薪资平均值约39607元。
掌握大模型技术你还能拥有更多可能性:
• 成为一名全栈大模型工程师,包括Prompt,LangChain,LoRA等技术开发、运营、产品等方向全栈工程;
• 能够拥有模型二次训练和微调能力,带领大家完成智能对话、文生图等热门应用;
• 薪资上浮10%-20%,覆盖更多高薪岗位,这是一个高需求、高待遇的热门方向和领域;
• 更优质的项目可以为未来创新创业提供基石。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
基于知识点我自己画了一张AI大模型入门学习的思维导图,基本上是一份纯自学的学习指南,因为本身我们就具备编程基础,学习起来其实不难的,需要这份学习路线图和学习资料包的可以扫码添加一下我的小助手,她会把实战教程、学习路线图、书籍和手册分享给大家。
包括:大模型学习线路汇总、学习阶段,大模型实战案例,大模型学习视频,人工智能、机器学习、大模型书籍PDF。带你从零基础系统性的学好大模型!
下面给大家分享一份2025最新版的大模型学习路线,帮助新人小白更系统、更快速的学习大模型!
有需要完整版学习路线,可以微信扫描下方二维码**,立即免费领取!**
AI大模型学习路线汇总
大模型学习路线图,整体分为7个大的阶段:(全套教程文末领取哈)
第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;
第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;
第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;
第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;
第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;
第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;
第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。
学会后的收获:
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;
• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;
• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。
据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;
• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。
下面给大家分享一份2025最新版的大模型学习路线,帮助新人小白更系统、更快速的学习大模型!
有需要完整版学习路线,可以微信扫描下方二维码**,立即免费领取!**