又一国产Sora大模型发布！腾讯混元AI视频大模型！效果炸裂！能制作电影，能生成美女~...-CSDN博客

本文链接：https://blog.csdn.net/Ch97CKd/article/details/144302959

点击上方“码农突围”，马上关注
这里是码农充电第一站，回复“666”，获取一份专属大礼包
真爱，请设置“星标”或点个“在看”

这是【码农突围】的第 479 篇原创分享

作者 l 突围的鱼

来源 l 码农突围（ID：smartyuge）

纵观国内玩家，已有超15家企业推出了视频生成工具，既包括百度、阿里、腾讯、字节等6家巨头，也包括爱诗科技、生数科技、智象未来等9家创企。

此前传出腾讯杰出科学家、腾讯混元大模型技术负责人之一刘威，目前已经从腾讯离职。

今年 5 月，刘威以混元大模型技术负责人之一的身份，出席 InfoQ 举办的 AICon 全球人工智能开发与应用大会并发表了《腾讯混元大模型技术和应用实践》的主题演讲。今年 9 月，他还在 2024 外滩新媒体年会上发表了题为《生成式 AI 的发展与腾讯混元大模型的实践》的主旨演讲。

最近腾讯Sora版本发布，看来没有受到影响。AIGC，文生视频是最复杂的，也是所以大模型厂商最后才发布。

高质量视频生成，包括文本到视频（T2V）、图像到视频（I2V）和视频到视频（V2V）生成，在内容创作和世界模拟中具有重要意义，帮助人们以全新的方式表达其内在创造力，并用于建模和理解世界。像SORA这样的模型在生成高分辨率、更自然的运动、更好地对齐视觉与语言以及提高可控性，特别是在长视频序列方面，取得了显著进展。这些改进得益于模型架构的演变，从UNet转向了更具可扩展性和参数丰富的DiT模型，伴随着大规模数据扩展和优化的训练策略。然而，尽管基于DiT的闭源和开源模型不断涌现，针对其能力和局限性的全面研究仍然缺乏。此外，由于快速发展的技术，现有的基准测试难以充分涵盖类似SORA的模型，并认识到其重要的进展。此外，评估指标常常难以与人类偏好对齐。

学术界去年提出基础DiT架构，混元DiT在此之上进一步升级，有更强语义编码，针对更长、更复杂的文本能理解得更准确，原生中英双语支持，尺寸更易扩展。