【AI大模型前沿】阿里巴巴开源LHM:单图生成可动画3D人体模型,开启3D建模新纪元

系列篇章💥

No.文章
1【AI大模型前沿】深度剖析瑞智病理大模型 RuiPath:如何革新癌症病理诊断技术
2【AI大模型前沿】清华大学 CLAMP-3:多模态技术引领音乐检索新潮流
3【AI大模型前沿】浙大携手阿里推出HealthGPT:医学视觉语言大模型助力智能医疗新突破
4【AI大模型前沿】阿里 QwQ-32B:320 亿参数推理大模型,性能比肩 DeepSeek-R1,免费开源
5【AI大模型前沿】TRELLIS:微软、清华、中科大联合推出的高质量3D生成模型
6【AI大模型前沿】Migician:清华、北大、华科联手打造的多图像定位大模型,一键解决安防监控与自动驾驶难题
7【AI大模型前沿】DeepSeek-V3-0324:AI 模型的全面升级与技术突破
8【AI大模型前沿】BioMedGPT-R1:清华联合水木分子打造的多模态生物医药大模型,开启智能研发新纪元
9【AI大模型前沿】DiffRhythm:西北工业大学打造的10秒铸就完整歌曲的AI歌曲生成模型
10【AI大模型前沿】R1-Omni:阿里开源全模态情感识别与强化学习的创新结合
11【AI大模型前沿】Qwen2.5-Omni:阿里巴巴的多模态大模型,实现看、听、说、写一体化
12【AI大模型前沿】SmolDocling:256M参数的轻量级多模态文档处理利器,10分钟搞定百页PDF
13【AI大模型前沿】Stable Virtual Camera:Stability AI 推出的2D图像转3D视频模型,一键生成沉浸式视频
14【AI大模型前沿】阿里 Qwen3 震撼开源,模型新王诞生,开启全球大模型新纪元
15【AI大模型前沿】InternVL:OpenGVLab开源多模态大模型,解锁视觉问答与多语言翻译的全能应用图鉴
16【AI大模型前沿】Fin-R1:上海财经大学联合财跃星辰推出的金融推理大模型,凭7B参数拿下评测第二,离行业第一仅差3分
17【AI大模型前沿】Med-R1:基于强化学习的医疗视觉语言模型,突破跨模态医学推理的普适性
18【AI大模型前沿】Baichuan-M1-14B:百川智能推出专为医疗优化的开源大语言模型
19【AI大模型前沿】一键生成宫崎骏动画风,EasyControl Ghibli 让照片秒变吉卜力艺术品
20【AI大模型前沿】TxGemma:谷歌推出的高效药物研发大模型,临床试验预测准确率超90%
21【AI大模型前沿】F5R-TTS:腾讯推出TTS领域的新王者,又快又准又自然,零样本语音克隆新高度
22【AI大模型前沿】MiniMind-V:低成本打造超小多模态视觉语言模型(仅需1.3元人民币和1小时)
23【AI大模型前沿】MoCha:端到端对话角色视频生成模型、电影级对话角色合成黑科技、重新定义动画创作
24【AI大模型前沿】HuatuoGPT-o1-7B:中英文双语医学推理,打破语言障碍的AI大模型
25【AI大模型前沿】MedReason:大规模医学推理数据集、借用知识图谱将大模型打造成“医术”专家
26【AI大模型前沿】SkyReels-V2:昆仑万维开源的无限时长电影生成模型,开启视频生成新纪元
27【AI大模型前沿】Dia:Nari Labs开源16亿参数TTS模型,只需文本输入,生成媲美真人对话的语音
28【AI大模型前沿】阿里巴巴开源LHM:单图生成可动画3D人体模型,开启3D建模新纪元


前言

在人工智能与3D技术融合的浪潮中,3D内容生成领域迎来了重大突破。传统的3D建模需要专业的知识和大量的时间,而新兴的AI驱动的3D生成技术正在改变这一局面。阿里巴巴通义实验室最近开源的LHM(Large Animatable Human Reconstruction Model)项目,专注于从单张图像快速生成可动画化的3D人体模型,为3D内容创作提供了全新的解决方案。本文将详细介绍LHM项目的背景、技术特点、核心功能、应用场景以及如何快速使用该模型。

一、项目概述

LHM是由阿里巴巴通义实验室推出的从单张图像重建可动画化3D人体模型的开源项目。基于多模态Transformer架构,融合3D几何特征和2D图像特征,LHM能够快速生成高质量的可动画化3D人体模型,适用于AR/VR等沉浸式应用。该模型在几秒钟内即可完成从单张图像到3D可动画化模型的转换,无需复杂的后处理。

在这里插入图片描述

二、技术原理

(一)多模态Transformer架构

LHM基于多模态Transformer架构,融合3D几何特征(从SMPL-X模板采样得到的表面点)和2D图像特征(从预训练的视觉Transformer提取),有效处理几何和视觉信息。针对头部区域设计的多尺度特征提取方案,聚合不同层次的特征增强面部细节的恢复能力。

(二)3D高斯点云表示

LHM采用3D高斯点云(Gaussian Splatting)形式表示3D模型,支持实时、高质量的渲染。网络直接预测高斯点云的参数(如位置、旋转、缩放、颜色等),实现从输入图像到3D模型的快速转换。

(三)自监督学习

LHM基于大规模视频数据进行训练,用渲染损失和正则化项优化模型,无需依赖稀缺的3D扫描数据。在训练过程中,引入“尽可能接近”(as close as possible)和“尽可能接近球形”(as spherical as possible)的正则化项,保持3D模型的几何合理性。

(四)实时动画支持

LHM基于SMPL-X骨架参数将重建的3D模型变形到目标姿态,支持实时姿态控制动画。整个重建和动画化过程在单次前向传播中完成,适合实时应用。

在这里插入图片描述

三、核心功能

(一)输入灵活

LHM支持从单张图像、双目视频、RGB视频、3D扫描数据和文本提示等多种输入形式生成3D人体模型,提供了极大的灵活性。

(二)高保真细节

LHM精确保留服装纹理、面部细节等关键信息,生成高质量的3D模型。其多模态Body-Head Transformer(MBHT)设计,精确捕捉服装褶皱和面部特征,生成的模型具有极高的细节保真度。

(三)快速重建

LHM在几秒钟内即可完成从单张图像到3D可动画化模型的转换,无需复杂的后处理。在A100 GPU上,单次重建仅需0.2秒,这种快速重建能力为实时应用提供了可能。

(四)实时动画

LHM支持基于姿态控制的实时动画渲染,适用于沉浸式应用(如AR/VR)。生成的模型可以实时变形到目标姿态,支持动态姿势控制和动作序列,为用户提供更自然、流畅的动画效果。

(五)多场景支持

LHM在开放环境(in-the-wild images)上表现出色,适应多种场景和姿态。无论是在室内还是室外,无论是静止还是动态姿态,LHM都能生成高质量的可动画化3D模型。

(六)多样化输出

LHM支持将生成的3D人体模型以多种格式输出,包括GAUSSIAN、OBJ、GLB和视频等。用户可以根据需求选择合适的输出格式,方便地将模型集成到不同的应用场景中。

四、应用场景

(一)虚拟现实(VR)和增强现实(AR)

LHM可以快速将照片转化为可动画化的3D虚拟角色,增强沉浸感和交互性。例如,在虚拟会议中,用户可以生成自己的3D虚拟形象参与会议;在虚拟旅游中,用户可以生成虚拟角色探索虚拟世界。它与VR设备结合,生成的数字人可进入虚拟世界与玩家交互,适用于社交元宇宙、沉浸式教育与模拟训练等XR场景。

(二)游戏开发

LHM快速生成高质量3D角色模型,支持实时动画,提升开发效率和游戏体验。游戏开发者可以利用LHM快速创建游戏角色,减少建模时间,提高生产效率。生成的3D模型可以无缝集成到游戏引擎中,如Unity和Unreal Engine,用于游戏中的角色动画和交互。

(三)影视制作

LHM用于特效制作和动画电影,快速生成角色模型,提升制作效率和质量。通过LHM生成的3D模型可以作为影视特效的基础素材,进行进一步的动画制作和渲染,节省大量的人力和时间成本。

(四)社交媒体和内容创作

用户可以使用LHM生成3D虚拟形象用于社交媒体,创作者可以快速生成3D角色用于短视频、直播等。例如,用户可以生成自己的3D虚拟形象用于虚拟直播,吸引更多的观众和粉丝。创作者可以利用LHM生成的3D角色制作高质量的短视频内容,提升创作效率和作品质量。

(五)教育和培训

LHM可以创建虚拟教师或助教用于在线教育,生成3D模型用于医疗、军事等领域的模拟训练。在医学教育中,LHM生成的3D人体模型可以用于解剖学教学和手术模拟训练;在军事训练中,LHM生成的3D模型可以用于战术演练和模拟作战场景。

(六)医疗康复

LHM生成的3D人体模型可以用于医疗康复领域,帮助医生和康复师更好地了解患者的肢体运动情况,制定个性化的康复计划。通过LHM生成的3D模型,医生可以实时观察患者的肢体运动轨迹,评估康复效果,调整治疗方案。

五、快速使用

(一)环境搭建

  1. 克隆项目仓库
git clone https://github.com/aigc3d/LHM.git
cd LHM
  1. 安装依赖
  • CUDA 11.8 环境
sh ./install_cu118.sh
pip install rembg
  • CUDA 12.1 环境
sh ./install_cu121.sh
pip install rembg

(二)模型下载

模型权重会自动下载,但你也可以手动下载以节省时间。以下是手动下载模型权重的步骤:

  1. 从 HuggingFace 下载
from huggingface_hub import snapshot_download
# 下载 LHM-MINI 模型
model_dir = snapshot_download(repo_id='3DAIGC/LHM-MINI', cache_dir='./pretrained_models/huggingface')
# 下载 LHM-500M-HF 模型
model_dir = snapshot_download(repo_id='3DAIGC/LHM-500M-HF', cache_dir='./pretrained_models/huggingface')
# 下载 LHM-1B-HF 模型
model_dir = snapshot_download(repo_id='3DAIGC/LHM-1B-HF', cache_dir='./pretrained_models/huggingface')
  1. 从 ModelScope 下载
from modelscope import snapshot_download
# 下载 LHM-MINI 模型
model_dir = snapshot_download(model_id='Damo_XR_Lab/LHM-MINI', cache_dir='./pretrained_models')
# 下载 LHM-500M-HF 模型
model_dir = snapshot_download(model_id='Damo_XR_Lab/LHM-500M-HF', cache_dir='./pretrained_models')
# 下载 LHM-1B-HF 模型
model_dir = snapshot_download(model_id='Damo_XR_Lab/LHM-1B-HF', cache_dir='./pretrained_models')

(三)本地运行Gradio推理界面

目前支持用户运动序列输入。由于姿态估计器需要一些 GPU 内存,此 Gradio 应用程序运行 LHM-500M 至少需要 24GB 的 GPU 内存。

# 内存优化版本;运行时间会更长,但对 GPU 内存要求较低。
# 对于 720P 视频,支持的最大长度为 20 秒。
python ./app_motion_ms.py  # 使用默认模型(LHM-500M-HF)运行 Gradio 推理界面
python ./app_motion_ms.py  --model_name LHM-1B-HF  # 指定使用 LHM-1B-HF 模型运行 Gradio 推理界面

# 支持用户自定义运动序列输入。由于姿态估计器需要占用一定量的 GPU 内存,因此此 Gradio 应用程序至少需要 24GB 的 GPU 内存来运行 LHM-500M。
python ./app_motion.py  # 使用默认模型(LHM-500M)运行 Gradio 推理界面
python ./app_motion.py  --model_name LHM-1B-HF  # 指定使用 LHM-1B-HF 模型运行 Gradio 推理界面

# 对视频序列进行预处理
python ./app.py  # 使用默认模型(LHM-500M)运行 Gradio 推理界面
python ./app.py --model_name LHM-1B  # 指定使用 LHM-1B 模型运行 Gradio 推理界面

(四)本地直接推理

# 定义模型名称,可选值有:LHM-500M-HF、LHM-500M、LHM-1B、LHM-1B-HF
# MODEL_NAME={LHM-500M-HF, LHM-500M, LHM-1B, LHM-1B-HF}

# 示例:
# bash ./inference.sh LHM-500M-HF ./train_data/example_imgs/ ./train_data/motion_video/mimo1/smplx_params
# bash ./inference.sh LHM-500M ./train_data/example_imgs/ ./train_data/motion_video/mimo1/smplx_params
# bash ./inference.sh LHM-1B ./train_data/example_imgs/ ./train_data/motion_video/mimo1/smplx_params
# 运行推理脚本,生成动画
bash inference.sh ${MODEL_NAME} ${IMAGE_PATH_OR_FOLDER}  ${MOTION_SEQ}

# export mesh 
bash ./inference_mesh.sh ${MODEL_NAME}

更多详细信息和高级用法,请参考 GitHub 仓库。

(五)在线体验

LHM还提供了在线体验Demo,用户可以通过HuggingFace或魔搭社区直接上传图片生成3D模型。在线体验地址:
HuggingFacehttps://huggingface.co/spaces/DyrusQZ/LHM
在这里插入图片描述

六、结语

LHM作为阿里巴巴通义实验室开源的3D人体重建模型,通过多模态Transformer架构和3D高斯点云表示,实现了从单张图像到高质量可动画化3D模型的快速转换。其在虚拟现实、游戏开发、影视制作等多个领域的广泛应用前景,预示着3D建模技术的新纪元。随着项目的不断发展和优化,LHM将成为更多开发者的重要工具。

七、项目地址

  • 项目官网:https://lingtengqiu.github.io/LHM
  • GitHub仓库:https://github.com/aigc3d/LHM
  • arXiv技术论文:https://arxiv.org/pdf/2503.10625
  • 在线体验Demo:https://huggingface.co/spaces/DyrusQZ/LHM

在这里插入图片描述

🎯🔖更多专栏系列文章:AI大模型提示工程完全指南AI大模型探索之路(零基础入门)AI大模型预训练微调进阶AI大模型开源精选实践AI大模型RAG应用探索实践🔥🔥🔥 其他专栏可以查看博客主页📑

😎 作者介绍:资深程序老猿,从业10年+、互联网系统架构师,目前专注于AIGC的探索(CSDN博客之星|AIGC领域优质创作者)
📖专属社群:欢迎关注【小兵的AI视界】公众号或扫描下方👇二维码,回复‘入群’ 即刻上车,获取邀请链接。
💘领取三大专属福利:1️⃣免费赠送AI+编程📚500本,2️⃣AI技术教程副业资料1套,3️⃣DeepSeek资料教程1套🔥(限前500人)
如果文章内容对您有所触动,别忘了点赞、⭐关注,收藏!加入我们,一起携手同行AI的探索之旅,开启智能时代的大门!

评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

寻道AI小兵

🐳 感谢你的巨浪支持!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值