AIGC大模型实践总结

阿里巴巴淘系技术团队官网博客

于 2024-08-07 18:26:05 发布

阅读量1.8k

点赞数 16

CC 4.0 BY-SA版权

文章标签： AIGC

本文链接：https://blog.csdn.net/Taobaojishu/article/details/141005145

大模型浪潮席卷全球，在各行各业中的重要性愈发凸显，呈现出一股不可逆转的发展趋势。这一年本人所在业产技也在这一过程中持续探索和尝试AIGC。本文一方面是对AIGC实践的总结回顾，同时也是本人学习实践AIGC过程中一些笔记、心得分享。因个人能力限制，文章中可能存在一些理解或表述错误的地方，希望各位大佬能及时批评和指正。

AI时代

2022年11月30号，OpenAI推出ChatGPT后随即爆火，五天注册用户数过百万，2个月用户破1亿，成为史上增长最快的消费者应用。随后各大厂也纷纷卷入AIGC领域，迎来国产GPT大模型发布潮以及AI创业公司成立潮。

大模型代表一个新的技术AI时代的来临，大模型展现出的强大的语义理解，内容生成以及泛化能力正在逐渐改变我们的工作与生活方式（AI+）、工作方式和思维方式。正如《陆奇的大模型观》所讲，当前我们正迎来新范式的新拐点，从信息系统到模型系统过渡，"模型"知识无处不在。人工智能的浪潮正在引领新的技术革命，或许可称为第五次工业革命。

2024年2月16日，OpenAI正式发布文生视频模型Sora引发全球关注。Sora可以根据用户的文本提示快速制作长达一分钟的逼真视频，这些视频可以呈现具有多个角色、特定类型的动作、主题和背景等准确细节的复杂场景。而像Pika等其他主流的视频生成模型大多只能维持5s左右的动作和画面一致性，而Sora可在长达17s的视频中保持动作和画面的一致性。

优势：60s超长时间、运动镜头下内容一致性、现实场景真实感。

2024年3月13日，明星机器人创业公司 Figure，发布了全新 OpenAI 大模型加持的机器人 demo。视频中Figure demo机器人展示与人类的对话，没有任何远程操作。机器人的速度有了显著的提升，开始接近人类的速度。引起对机器人的发展速度感到震惊，我们似乎正处在这场汹涌的进化浪潮中。甚至有人感叹，已经准备好迎接更多的机器人了。

大模型基础知识

AI、AIGC、AGI、ChatGPT的基本概念在人工智能的领域里面，以上四个词是四个不同的概念。

▐ AI(人工智能)：artifical intelligence

人工智能（AI）是最广泛的概念，泛指通过机器模拟和执行人类的智能功能的技术。指的是由人制造出来的系统或软件，这些系统或软件能够执行通常需要人类智能才能完成的任务，如视觉感知、语音识别、决策制定和翻译等。泛AI概念包括的内容很大，包括狭义和广义定义的AI。

狭义的AI即弱人工智能，指可以执行特定任务的智能系统，只能在特定的场景和范围内体现智能行为。比如语音识别、图片识别、智能驾驶；

广义的AI即强人工智能，值得是具备和人类一样的智能水平和认知能力的系统。能够在复杂的环境下自主学习、推理、理解、适应，有更高级的智能表现。

▐ AGI(通用人工智能)：artifical general intelligence

通用人工智能（AGI）是广义AI的一个子集，指能在各个领域和方面都能达到人类智能水平的系统，具备人类的多样性和灵活性。AGI是AI研究的终极目标之一，AGI能够跨领域执行多种任务，具备自我学习和适应的能力，可以进行各类的学习和推理任务，并且具备自我意识和通用智能。

▐ AIGC(人工智能生成内容)：AI generated content

AIGC，全名“AI generated content”，又称生成式AI，意为人工智能生成内容，是利用AI技术自动创作出新的内容，这包括但不限于文字、图像、音乐、视频等。AIGC技术的核心优势是能够大大减轻人类创作者的负担，提高内容生产的效率和规模，同时也能够创造出全新的、创意性的作品。

可以简单理解为，AIGC的水位，介于弱AI与AGI之间，是AGI在特定领域（内容生成）的一个削弱型应用。AIGC目前已经有很多广泛的应用，而相反，AGI则处于研究阶段，且在实际落地过程中，肯定会面临严格的机器人伦理问题。

▐ LLM(大语言模型)：large language model

大语言模型一般指在大规模的文本语料上训练，包含百亿甚至更多参数的语言模型。大语言模型采用的架构目前基本是基于transformer的架构。那么LLM近期爆火，在之前却没有很好的表现的一个很重要原因是，只有语言模型的规模达到一定量级的时候，某些能力才会出现。（称之为涌现能力）。代表性的包括：上下文学习、指令遵循、逐步推理等等。

如Transformer架构的GPT-3、BERT、T5等模型。这些模型通过在海量数据上进行训练，能够学习到丰富的语言和知识表示，并展现出强大的自然语言处理能力。

▐ ChatGPT：Chat Generative Pre-trained Transformer

ChatGPT是"Chat Generative Pre-trained Transformer”的缩写，ChatGPT是一种基于人工智能技术的聊天机器人，能够进行自然语言理解和生成，提供流畅且类人的对话体验。是史上增长最快的消费者应用，可以应用于各种场景，能用于问答、文本摘要生成、机器翻译、分类、代码生成和对话。