大模型浪潮席卷全球,在各行各业中的重要性愈发凸显,呈现出一股不可逆转的发展趋势。这一年本人所在业产技也在这一过程中持续探索和尝试AIGC。本文一方面是对AIGC实践的总结回顾,同时也是本人学习实践AIGC过程中一些笔记、心得分享。因个人能力限制,文章中可能存在一些理解或表述错误的地方,希望各位大佬能及时批评和指正。
AI时代
2022年11月30号,OpenAI推出ChatGPT后随即爆火,五天注册用户数过百万,2个月用户破1亿,成为史上增长最快的消费者应用。随后各大厂也纷纷卷入AIGC领域,迎来国产GPT大模型发布潮以及AI创业公司成立潮。
大模型代表一个新的技术AI时代的来临,大模型展现出的强大的语义理解,内容生成以及泛化能力正在逐渐改变我们的工作与生活方式(AI+)、工作方式和思维方式。正如《陆奇的大模型观》所讲,当前我们正迎来新范式的新拐点,从信息系统到模型系统过渡,"模型"知识无处不在。人工智能的浪潮正在引领新的技术革命,或许可称为第五次工业革命。
2024年2月16日,OpenAI正式发布文生视频模型Sora引发全球关注。Sora可以根据用户的文本提示快速制作长达一分钟的逼真视频,这些视频可以呈现具有多个角色、特定类型的动作、主题和背景等准确细节的复杂场景。而像Pika等其他主流的视频生成模型大多只能维持5s左右的动作和画面一致性,而Sora可在长达17s的视频中保持动作和画面的一致性。
优势:60s超长时间、运动镜头下内容一致性、现实场景真实感。
2024年3月13日,明星机器人创业公司 Figure,发布了全新 OpenAI 大模型加持的机器人 demo。视频中Figure demo机器人展示与人类的对话,没有任何远程操作。机器人的速度有了显著的提升,开始接近人类的速度。引起对机器人的发展速度感到震惊,我们似乎正处在这场汹涌的进化浪潮中。甚至有人感叹,已经准备好迎接更多的机器人了。
大模型基础知识
AI、AIGC、AGI、ChatGPT的基本概念在人工智能的领域里面,以上四个词是四个不同的概念。
▐ AI(人工智能):artifical intelligence
人工智能(AI)是最广泛的概念,泛指通过机器模拟和执行人类的智能功能的技术。指的是由人制造出来的系统或软件,这些系统或软件能够执行通常需要人类智能才能完成的任务,如视觉感知、语音识别、决策制定和翻译等。泛AI概念包括的内容很大,包括狭义和广义定义的AI。
狭义的AI即弱人工智能,指可以执行特定任务的智能系统,只能在特定的场景和范围内体现智能行为。比如语音识别、图片识别、智能驾驶;
广义的AI即强人工智能,值得是具备和人类一样的智能水平和认知能力的系统。能够在复杂的环境下自主学习、推理、理解、适应,有更高级的智能表现。
▐ AGI(通用人工智能):artifical general intelligence
通用人工智能(AGI)是广义AI的一个子集,指能在各个领域和方面都能达到人类智能水平的系统,具备人类的多样性和灵活性。AGI是AI研究的终极目标之一,AGI能够跨领域执行多种任务,具备自我学习和适应的能力,可以进行各类的学习和推理任务,并且具备自我意识和通用智能。
▐ AIGC(人工智能生成内容):AI generated content
AIGC,全名“AI generated content”,又称生成式AI,意为人工智能生成内容,是利用AI技术自动创作出新的内容,这包括但不限于文字、图像、音乐、视频等。AIGC技术的核心优势是能够大大减轻人类创作者的负担,提高内容生产的效率和规模,同时也能够创造出全新的、创意性的作品。
可以简单理解为,AIGC的水位,介于弱AI与AGI之间,是AGI在特定领域(内容生成)的一个削弱型应用。AIGC目前已经有很多广泛的应用,而相反,AGI则处于研究阶段,且在实际落地过程中,肯定会面临严格的机器人伦理问题。
▐ LLM(大语言模型):large language model
大语言模型一般指在大规模的文本语料上训练,包含百亿甚至更多参数的语言模型。大语言模型采用的架构目前基本是基于transformer的架构。那么LLM近期爆火,在之前却没有很好的表现的一个很重要原因是,只有语言模型的规模达到一定量级的时候,某些能力才会出现。(称之为涌现能力)。代表性的包括:上下文学习、指令遵循、逐步推理等等。
如Transformer架构的GPT-3、BERT、T5等模型。这些模型通过在海量数据上进行训练,能够学习到丰富的语言和知识表示,并展现出强大的自然语言处理能力。
▐ ChatGPT:Chat Generative Pre-trained Transformer
ChatGPT是"Chat Generative Pre-trained Transformer”的缩写,ChatGPT是一种基于人工智能技术的聊天机器人,能够进行自然语言理解和生成,提供流畅且类人的对话体验。是史上增长最快的消费者应用,可以应用于各种场景,能用于问答、文本摘要生成、机器翻译、分类、代码生成和对话。
大模型架构
2017年前,transformer架构前的部分经典架构如下:
N元文法(n-gram)
多层感知器(MLP)
卷积神经网络(CNN),常见于计算机视觉;
循环神经网络(RNN,Recurrent Neural Network),一个很强大的神经网络模型,能预测序列数据,比如文本、语音和时间序列。
▐ Transformer架构
当下最火的当属2017年的transformer架构,Transformer是目前最常见的语言模型的基本结构。transformer架构涉及大量的概念和应用,比如编码-解码(encoder-decoder),注意力机制(attention),kqv(key、Querry、value)等。
Transformer模型的核心架构可分为编码器和解码器。即编码器将输入序列编码成一个向量,而解码器则从该向量中生成输出序列。
简单的工作流程如下:
1、获取输入句子的每一个单词的表示向量 X,X由单词的 Embedding(Embedding就是从原始数据提取出来Feature) 和单词位置的 Embedding 相加得到。
2、将得到的单词表示向量矩阵