Veo 是谷歌推出的视频生成模型,2024 年 5 月 15 日,谷歌在 I/O 开发者大会上发布了初代 Veo,此后又陆续推出了 Veo 2、Veo 3 等迭代版本1。以下是其详细介绍:
模型结构
- Veo6:基于谷歌多年的生成视频模型工作,如生成查询网络(GQN)、DVD - GAN、Imagen - Video 等,结合架构、缩放法则和其他技术来提高质量和输出分辨率。
- Veo 2:未公布详细结构,从功能上看,其具备文本编码器,可将用户输入的文本描述转化为模型能理解的信息,进而生成视频。同时支持图片转视频功能,可能存在图像相关处理模块。
- Veo 3:采用 Latent Diffusion Transformer 架构,核心是 “压缩潜空间生成 + 动态解码”。包含基于 UL2 Encoder 的文本编码器,用于将提示词转化为高维语义向量;新增的图像 Encoder 允许用户上传参考图;通过 Transformer 建模长序列视频帧的时空关系,生成压缩后的 Latent Code;还通过 V2A 模型将视频像素转化为语义信号,结合 NLP 生成同步音频波形。另外,其多模态融合架构包含视听理解模型、时序一致性模块、多模态 Transformer 和情感匹配系统。
模型优势
- 高分辨率与长时间生成:Veo 可生成 1080P 分辨率、超 60 秒的视频,Veo 2 能创建分辨率高达 4K 的两分钟以上的视频,Veo 3 支持最高 4K 分辨率输出,单次生成最长可达 2 分钟,能满足更多场景需求。
- 强大的自然语言理解能力:能理解 “延时摄影”“航拍风景” 等电影术语,Veo 3 还能处理复杂、多步骤的场景描述,风格一致性大幅提升,首次生成成功率提高约 40%。
- 出色的物理模拟与真实感:Veo 2 能更逼真地模拟运动、流体动力学以及光线特性。Veo 3 的物理引擎可模拟流体、刚体碰撞等复杂场景,误差控制在毫米级,生成的视频画面抖动和物体变形大幅减少,人物面部表情更自然。
- 音画同步生成3:Veo 3 是一大突破,可同时生成高质量视频和匹配的音频,包括背景音效、对话等,还能根据场景和情绪生成相应音乐,使视频更具沉浸感。
- 创作自由度高:用户可对光照、镜头语言、视频颜色风格等进行设定,还能通过上传参考图,引导视频风格或内容,如角色一致性等。
解决的问题
- 音画不同步:传统 AI 视频生成的音频需人工对齐,耗时久且效果差。Veo 3 的同步生成技术直接砍掉了后期调音流程,效率大幅提升,如 Sora 生成 1 分钟视频需 2 小时后期调音,Veo 3 仅需 8 秒生成且无需调音。
- 物理模拟失真:Veo 3 之前的模型在物理模拟上常有失真问题,Veo 3 能更准确地模拟自然现象,其物理引擎可使冰川洞穴内冰雕融化的速度、光线折射与温度变化等完全符合真实物理规律。
- 版权争议:谷歌为 Veo 3 生成内容植入隐形数字水印(SynthID),用户上传文件即可检测是否为 AI 生成,解决了 AI 内容溯源难题,有助于减少错误信息传播与内容误归因的风险。
相关技术交流群:672907582
加群请备注(进群后请告知):来自CSDN。
专属群:868373192,277356808