图生视频
功能介绍
该功能基于通义万相 2.1 - 图生视频 - 14B-720P 实现,具备以下核心能力与参数调节选项:
- 核心功能:
- 图生视频:上传单张图像作为视频首帧,结合文字描述,即可生成包含运动过程与运镜效果的视频。
- 首尾帧过渡:上传两张图片分别作为首帧和尾帧,模型能实现画面间的流畅过渡。
- 参数调节:支持对提示词引导系数、随机种子、采样步数、视频时长、视频分辨率等基本参数进行设置。
一些tips:建议选择风格、元素相似的图片进行生成,可助力模型在 5 秒内实现画面的流畅衔接,提升视频过渡效果。
效果示例
图生视频
提示词:
唯美复古油画质感视频,优雅东亚女子坐于维多利亚茶桌,身着蕾丝洋装,珍珠耳环轻晃,专注握杯品茶。桌上摆放精细瓷器与盛放鲜花,繁复花卉壁纸为背景,暖光透过蕾丝窗帘漫洒。镜头以窗框为框,缓缓推进,近景柔和聚焦女子含笑面容特写,定格静谧浪漫瞬间。
首尾帧
提示词:
高速行驶的红色奔驰车穿梭于隧道,车头灯刺破黑暗,隧道壁光线因疾驰化作流动光带,尽显动感。车辆从画面中央向远方飞驰,固定镜头下,速度与力量感扑面而来。最终,红色车身与隧道光影交融,配合动态模糊效果,极致速度带来的视觉冲击震撼呈现。
文生视频
功能介绍
基于通义万相 2.1 - 文生视频 - 14B-720P,具备以下功能与参数设置:
- 核心功能:通过输入中文提示词即可生成对应视频,同时支持提示词优化,让创作更便捷高效。
- 参数调节:开放提示词引导系数、随机种子、采样步数、视频时长、视频分辨率等基本参数,可灵活调整生成效果。
提示词撰写
提示词直接决定视频画面的呈现效果与细节表现,掌握提示词使用技巧,能大幅提升视频画面的品质与创作可控性。若想深入学习进阶技巧,可查阅万相官方文档:https://alidocs.dingtalk.com/i/nodes/jb9Y4gmKWrx9eo4dCql9LlbYJGXn6lpz?utm_scene=person_space
为让表述更清晰明了,我对内容重新梳理整合。用简洁语言阐述各概念,还添加了举例,方便理解:
主体指视频内容的核心呈现对象,如人、动物、植物、物品,或是奇幻生物、虚拟角色等想象之物。场景是主体所处环境,涵盖背景与前景,既可以是现实中的真实空间,像热闹街市、静谧森林,也能是充满魔法的异世界、未来科幻城市等虚构场景。运动包括主体的行为动作,如人物奔跑、花朵摇曳;也包含非主体的动态变化,像背景中飘动的云彩、旋转的特效光影,状态可分为静止、小幅度微动、大幅度剧烈运动、局部活动或整体呈现出的动态趋势 。
效果示例
提示词:
午夜,静谧花园中,月光为花瓣镀上银边,花朵在夜风中轻颤。镜头缓缓拉近,可见花瓣上的露珠如碎钻般闪烁。一只黑猫悄然出现,幽绿瞳孔在黑暗中发亮,它沿着小径无声踱步,似是花园的神秘守护者。步伐轻盈又谨慎,与夜色完美交融,为这片花园增添了几分诡谲与奇幻 。
文生视频模型微调
万相开源后,凭借优质的生成效果与高度灵活性,迅速成为众多开源用户制作视频的心头好。在社区中,各类有趣的万相 LoRA 快速汇聚,涵盖动作特效、画风、角色、动态壁纸功能等类别。其中,动作特效类 LoRA 玩法丰富多样,深受用户喜爱。
我们在AIGC专区上架了万相14B的训练器,该训练器减少了训练成本,不需要复杂的环境配置,也不需要昂贵的本地显卡,提供训练集就可无痛训练。
素材处理
线条小狗(图片素材)
数量建议:
无严格限制,少的话20张以上就能训练。建议:50-100张
标注规范:
确保图片都有准确的描述标签,可以用自然语言也可以用tag,都能起作用。
不同类型的 LoRA 训练存在一定差异:
角色类:在准备数据集时,要确保训练集中角色动作保持一致。既可以使用个人创作的 AI 生成图像,也能用原创(oc)素材。若想固定角色形象,需保留核心特征,删除无关标签,将关键形象特点融入触发词。具体训练方法可参考往期视频教程。
画风类:画风类视频模型适用于风格迁移与创意激发。以油画风格模型为例,收集数据集并进行标注。标注时,务必留意视频中的特殊元素,精准标注才能训练出理想的画风模型。
更多训练详细信息参考:
ModelScope AIGC专区LoRA训练教程
https://www.modelscope.cn/learn/908?pid=917
【直播回放】通义万相2.1&LoRA微调经验分享 - 小红书
https://www.xiaohongshu.com/explore/67fce1d1000000001d00836b?xsec_token=ABRBnLyOn9lpX8Ej1Lf_uwWjSmfmqdTLm_2U-vvi9QNkY=&xsec_source=pc_user
训练参数
核心参数:
- 总学习率(Learning rate):决定模型的学习速度,影响训练效率与效果。
- 每 N 轮保存一个 LoRA(Save every N epochs):设定训练进度的保存间隔,类似游戏存档点,便于随时回溯与继续训练。
- 网络大小(Network rank dim):通过调整 rank 值控制模型表达能力。大 rank 能捕捉更多特征与复杂模式,小 rank 可节省算力、降低过拟合风险 。
- 网络 Alpha(Network alpha):平衡原始权重矩阵与更新后权重矩阵的关系,合理的 alpha 值可避免参数更新幅度过大,保障模型收敛速度与最终性能。
数据目录参数:
- 数据目录参数单张次数(Repeat):表示在每个训练周期内,同一数据被重复使用的次数,通过多次训练挖掘数据特征。
- 训练轮数(Train epochs):即整个训练过程中,将所有训练数据完整学习的次数。这就好比把一本书从头到尾精读,训练轮数 30,就相当于将这本书通读 30 遍,加深模型对数据的理解与学习 。