- 博客(10)
- 收藏
- 关注
原创 DiTCtrl:创新KV共享与潜在融合策略,突破多提示视频生成局限,解决提示切换不连贯、场景转换突变问题,实现高质量、流畅过渡,免调优生成精准视频
在当今人工智能技术飞速发展的时代,多模态视频生成领域正成为研究的热点前沿。随着诸如 Sora 等视频生成模型的出现,利用多模态扩散变压器(MM-DiT)架构在生成较长视频方面取得了显著进步。然而,现有模型在多提示视频生成方面仍面临诸多困境,如对训练数据要求严苛、提示跟随性弱以及场景转换不自然等。在此背景下,DiTCtrl 方法应运而生,为多模态视频生成带来了新的曙光,引发了学界和业界的广泛关注。
2025-01-06 18:46:49
1084
原创 OminiControl:超轻量通用AI图像控制框架,仅需增加0.1%参数,实现细粒度主题控制与空间对齐!
解锁OmniControl核心秘密!深度解析多模态控制的最新架构,全面剖析LoRA优化、条件信号整合与高效生成技术,一文搞懂AI图像生成的未来趋势!
2024-12-24 18:04:24
1165
原创 SMPL:通过形状和姿态参数,精准还原3D人体形态,兼容动画与游戏渲染!
想象一下,你正在设计一款3D动画游戏或制作一部特效电影,你需要一个会“动”的人体角色。这个角色不仅要具备真实的体型,还要在不同姿势下保持自然的动作,比如跑步、跳跃时身体各部分的形变,还得在挥手、扭头时表现出真实的“软组织”运动效果。然而,传统的3D人体模型要么形态不够逼真,要么制作起来费时费力,很难满足如今动画、游戏和特效产业对高质量、高效率的需求。为了解决这些问题,研究者们提出了SMPL模型(Skinned Multi-Person Linear Model),这是一个通过形状参数和姿态参数对人体进行描述
2024-12-20 16:33:47
2158
原创 如何高效阅读科研文献?从“看不懂”到“知其然、知其所以然”的进阶之路!
到了后期阶段,你应该已经有了自己相对成熟的研究方向和思路。那么,这个时候的文献阅读应该更加注重总结和创新。你已经积累了大量的文献,理解了当前的研究趋势和存在的不足,现在是时候将这些知识融会贯通,进行创新的思考了。此时,你不再只是单纯地阅读论文,而是要把它们作为工具来帮助自己解决实际的科研问题。你可以通过比较不同文献的研究方法、结果以及结论,找出其中的空白点或不足之处,进而找到自己创新的切入点。这时候,你的文献阅读不仅是一个“跟随”的过程,更是一个“超越”的过程。
2024-12-18 17:39:22
538
原创 场景连贯,角色统一!阿里In-Context LoRA:影视分镜、品牌设计的影像生成利器!
想象一下,你在设计一系列儿童绘本的插画,或者在规划一组风格统一的家居产品图片。用现在的AI工具,虽然可以通过输入文字生成单张图片,但要让这些图片保持风格一致并体现复杂的关联,比如角色的表情、动作变化或不同家具的设计统一,却非常困难。这背后是因为现有的文本生成图片技术在处理“复杂关系”的多图任务时还有局限性。为了解决这一问题,研究者们提出了一些新方法。在这篇研究中,作者发现了一件有趣的事:现有的文本生成图片模型,其实已经悄悄具备了一种称为“上下文学习”的能力。
2024-12-07 17:36:16
1472
原创 小红书开源StoryMaker:让图像生成中的角色与背景完美融合,个性化与一致性兼得
在生成图像时,我们常常希望不仅角色的面孔一致,还希望服饰、发型甚至身体特征都能保持一致。然而,现有的图像生成方法往往在多角色或复杂场景下无法实现全局的角色连贯性,难以构建出真正完整的叙事场景。为了解决这一问题,小红书团队推出了StoryMaker,一种创新的个性化图像生成解决方案。它不仅关注面部一致性,还在服装、发型和身体特征方面实现了全面统一。全局一致性控制:整合角色的面部特征、服装、发型和身体特征。精准特征融合:通过“位置感知感知器重采样器(PPR)”提取和整合角色特征,避免角色间或与背景的混淆。
2024-12-06 08:49:38
981
原创 超越Sora,长时1080p视频生成!清华生数推出视频大模型Vidu,开创高一致性新纪元!
我们推出了Vidu,一款高性能文本生成视频模型,能够在单次生成中产出时长长达16秒、分辨率为1080p的视频。Vidu基于扩散模型,采用U-ViT作为主干网络,突破了长视频生成的瓶颈,实现了卓越的可扩展性和一致性表现。它不仅能生成逼真的视频,还能产出富有想象力的内容,并对摄影技巧如转场、镜头运动、光效和情感呈现有一定的理解,其效果媲美目前最强的文本生成视频模型Sora。同时,Vidu还在可控视频生成方向进行了初步探索,包括Canny到视频、视频预测、多主体一致性生成等,均展现出令人期待的结果。
2024-12-04 22:07:00
893
原创 OmniGen:全能图像生成神器!支持任意人物合影、场景自由切换,图像编辑、姿态识别全覆盖,8位量化体验震撼!
近年来,随着大语言模型(LLMs)的迅速发展,语言生成任务已经实现了高度统一,极大地提升了人机交互的效率与质量。然而,在图像生成领域,尽管许多模型在特定任务上表现出色,但缺乏一个能够在单一框架中处理各种图像生成任务的统一模型。这导致每个新任务都需要单独设计和调优不同的模型或模块,工作流程繁琐且效率低下。针对这一问题,本文提出了OmniGen——一款创新的统一图像生成模型,旨在简化图像生成过程,并提升其多任务处理能力。任务统一性。
2024-12-03 20:52:27
1212
原创 SD3: 公式占一半,实验很充分!全面提升高分辨率图像生成能力。理论与实践的完美融合,开源领域的又一里程碑!
SD3: 公式占一半,实验很充分!全面提升高分辨率图像生成能力。理论与实践的完美融合,开源领域的又一里程碑!
2024-11-29 17:52:44
782
原创 OminiControl: Minimal and Universal Control for Diffusion Transformer
OminiControl:通用扩散模型控制框架,基于FLUX模型,支持主体驱动控制和空间控制(如边缘引导和图像修复)。特点是设计极简(仅增加0.1%参数)且通用性强,可实现场景变换、图像修复、边缘生成、深度图转换、上色、去模糊等多种任务
2024-11-27 17:52:21
1131
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人