AIGC大模型实践总结

24c702890957eafd53b9e0c711ad4ea7.gif

大模型浪潮席卷全球,在各行各业中的重要性愈发凸显,呈现出一股不可逆转的发展趋势。这一年本人所在业产技也在这一过程中持续探索和尝试AIGC。本文一方面是对AIGC实践的总结回顾,同时也是本人学习实践AIGC过程中一些笔记、心得分享。因个人能力限制,文章中可能存在一些理解或表述错误的地方,希望各位大佬能及时批评和指正。

d8eef2509faabead67201ebb45bc4ec6.png

AI时代

2022年11月30号,OpenAI推出ChatGPT后随即爆火,五天注册用户数过百万,2个月用户破1亿,成为史上增长最快的消费者应用。随后各大厂也纷纷卷入AIGC领域,迎来国产GPT大模型发布潮以及AI创业公司成立潮。

大模型代表一个新的技术AI时代的来临,大模型展现出的强大的语义理解,内容生成以及泛化能力正在逐渐改变我们的工作与生活方式(AI+)、工作方式和思维方式。正如《陆奇的大模型观》所讲,当前我们正迎来新范式的新拐点,从信息系统到模型系统过渡,"模型"知识无处不在。人工智能的浪潮正在引领新的技术革命,或许可称为第五次工业革命。

f6bca0a780295c8eaf8e075f9b2e0eb0.png

2024年2月16日,OpenAI正式发布文生视频模型Sora引发全球关注。Sora可以根据用户的文本提示快速制作长达一分钟的逼真视频,这些视频可以呈现具有多个角色、特定类型的动作、主题和背景等准确细节的复杂场景。而像Pika等其他主流的视频生成模型大多只能维持5s左右的动作和画面一致性,而Sora可在长达17s的视频中保持动作和画面的一致性。

优势:60s超长时间、运动镜头下内容一致性、现实场景真实感

2024年3月13日,明星机器人创业公司 Figure,发布了全新 OpenAI 大模型加持的机器人 demo。视频中Figure demo机器人展示与人类的对话,没有任何远程操作。机器人的速度有了显著的提升,开始接近人类的速度。引起对机器人的发展速度感到震惊,我们似乎正处在这场汹涌的进化浪潮中。甚至有人感叹,已经准备好迎接更多的机器人了。

大模型基础知识

AI、AIGC、AGI、ChatGPT的基本概念在人工智能的领域里面,以上四个词是四个不同的概念。

  AI(人工智能):artifical intelligence

人工智能(AI)是最广泛的概念,泛指通过机器模拟和执行人类的智能功能的技术。指的是由人制造出来的系统或软件,这些系统或软件能够执行通常需要人类智能才能完成的任务,如视觉感知、语音识别、决策制定和翻译等。泛AI概念包括的内容很大,包括狭义和广义定义的AI。

狭义的AI即弱人工智能,指可以执行特定任务的智能系统,只能在特定的场景和范围内体现智能行为。比如语音识别、图片识别、智能驾驶;

广义的AI即强人工智能,值得是具备和人类一样的智能水平和认知能力的系统。能够在复杂的环境下自主学习、推理、理解、适应,有更高级的智能表现。

  AGI(通用人工智能):artifical general intelligence

通用人工智能(AGI)是广义AI的一个子集,指能在各个领域和方面都能达到人类智能水平的系统,具备人类的多样性和灵活性。AGI是AI研究的终极目标之一,AGI能够跨领域执行多种任务,具备自我学习和适应的能力,可以进行各类的学习和推理任务,并且具备自我意识和通用智能

  AIGC(人工智能生成内容):AI generated content

AIGC,全名“AI generated content”,又称生成式AI,意为人工智能生成内容,是利用AI技术自动创作出新的内容,这包括但不限于文字、图像、音乐、视频等。AIGC技术的核心优势是能够大大减轻人类创作者的负担,提高内容生产的效率和规模,同时也能够创造出全新的、创意性的作品。

可以简单理解为,AIGC的水位,介于弱AI与AGI之间,是AGI在特定领域(内容生成)的一个削弱型应用。AIGC目前已经有很多广泛的应用,而相反,AGI则处于研究阶段,且在实际落地过程中,肯定会面临严格的机器人伦理问题。

  LLM(大语言模型):large language model

大语言模型一般指在大规模的文本语料上训练,包含百亿甚至更多参数的语言模型。大语言模型采用的架构目前基本是基于transformer的架构。那么LLM近期爆火,在之前却没有很好的表现的一个很重要原因是,只有语言模型的规模达到一定量级的时候,某些能力才会出现。(称之为涌现能力)。代表性的包括:上下文学习、指令遵循、逐步推理等等。

  • 如Transformer架构的GPT-3、BERT、T5等模型。这些模型通过在海量数据上进行训练,能够学习到丰富的语言和知识表示,并展现出强大的自然语言处理能力。

  ChatGPT:Chat Generative Pre-trained Transformer

ChatGPT是"Chat Generative Pre-trained Transformer”的缩写,ChatGPT是一种基于人工智能技术的聊天机器人,能够进行自然语言理解和生成,提供流畅且类人的对话体验。是史上增长最快的消费者应用,可以应用于各种场景,能用于问答、文本摘要生成、机器翻译、分类、代码生成和对话。

大模型架构

2017年前,transformer架构前的部分经典架构如下:

  • N元文法(n-gram)

  • 多层感知器(MLP)

  • 卷积神经网络(CNN),常见于计算机视觉;

  • 循环神经网络(RNN,Recurrent Neural Network),一个很强大的神经网络模型,能预测序列数据,比如文本、语音和时间序列。

  Transformer架构

当下最火的当属2017年的transformer架构,Transformer是目前最常见的语言模型的基本结构。transformer架构涉及大量的概念和应用,比如编码-解码(encoder-decoder),注意力机制(attention),kqv(key、Querry、value)等。

Transformer模型的核心架构可分为编码器和解码器。即编码器将输入序列编码成一个向量,而解码器则从该向量中生成输出序列。

简单的工作流程如下:

739aa1bfac5ca7963ef7573709f6acd2.png

1、获取输入句子的每一个单词的表示向量 X,X由单词的 Embedding(Embedding就是从原始数据提取出来Feature) 和单词位置的 Embedding 相加得到。

55f6887b001e29c2568b7a813434c79d.png

2、将得到的单词表示向量矩阵

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值