ModelScope AIGC 专区大升级，视频创作能力直接拉满！

AI智汇社丨官方账号

已于 2025-06-06 11:14:05 修改

阅读量922

点赞数 8

CC 4.0 BY-SA版权

文章标签： AI作画 AI大模型

于 2025-06-06 11:13:40 首次发布

本文链接：https://blog.csdn.net/lichunchuan1/article/details/148470895

图生视频

功能介绍

该功能基于通义万相 2.1 - 图生视频 - 14B-720P 实现，具备以下核心能力与参数调节选项：

核心功能：
图生视频：上传单张图像作为视频首帧，结合文字描述，即可生成包含运动过程与运镜效果的视频。
首尾帧过渡：上传两张图片分别作为首帧和尾帧，模型能实现画面间的流畅过渡。
参数调节：支持对提示词引导系数、随机种子、采样步数、视频时长、视频分辨率等基本参数进行设置。

一些tips：建议选择风格、元素相似的图片进行生成，可助力模型在 5 秒内实现画面的流畅衔接，提升视频过渡效果。

效果示例

图生视频

提示词：

唯美复古油画质感视频，优雅东亚女子坐于维多利亚茶桌，身着蕾丝洋装，珍珠耳环轻晃，专注握杯品茶。桌上摆放精细瓷器与盛放鲜花，繁复花卉壁纸为背景，暖光透过蕾丝窗帘漫洒。镜头以窗框为框，缓缓推进，近景柔和聚焦女子含笑面容特写，定格静谧浪漫瞬间。

首尾帧

提示词：

高速行驶的红色奔驰车穿梭于隧道，车头灯刺破黑暗，隧道壁光线因疾驰化作流动光带，尽显动感。车辆从画面中央向远方飞驰，固定镜头下，速度与力量感扑面而来。最终，红色车身与隧道光影交融，配合动态模糊效果，极致速度带来的视觉冲击震撼呈现。

文生视频

功能介绍

基于通义万相 2.1 - 文生视频 - 14B-720P，具备以下功能与参数设置：

核心功能：通过输入中文提示词即可生成对应视频，同时支持提示词优化，让创作更便捷高效。
参数调节：开放提示词引导系数、随机种子、采样步数、视频时长、视频分辨率等基本参数，可灵活调整生成效果。

提示词撰写

提示词直接决定视频画面的呈现效果与细节表现，掌握提示词使用技巧，能大幅提升视频画面的品质与创作可控性。若想深入学习进阶技巧，可查阅万相官方文档：https://alidocs.dingtalk.com/i/nodes/jb9Y4gmKWrx9eo4dCql9LlbYJGXn6lpz?utm_scene=person_space

为让表述更清晰明了，我对内容重新梳理整合。用简洁语言阐述各概念，还添加了举例，方便理解：

主体指视频内容的核心呈现对象，如人、动物、植物、物品，或是奇幻生物、虚拟角色等想象之物。场景是主体所处环境，涵盖背景与前景，既可以是现实中的真实空间，像热闹街市、静谧森林，也能是充满魔法的异世界、未来科幻城市等虚构场景。运动包括主体的行为动作，如人物奔跑、花朵摇曳；也包含非主体的动态变化，像背景中飘动的云彩、旋转的特效光影，状态可分为静止、小幅度微动、大幅度剧烈运动、局部活动或整体呈现出的动态趋势。

效果示例

提示词：

午夜，静谧花园中，月光为花瓣镀上银边，花朵在夜风中轻颤。镜头缓缓拉近，可见花瓣上的露珠如碎钻般闪烁。一只黑猫悄然出现，幽绿瞳孔在黑暗中发亮，它沿着小径无声踱步，似是花园的神秘守护者。步伐轻盈又谨慎，与夜色完美交融，为这片花园增添了几分诡谲与奇幻。

文生视频模型微调

万相开源后，凭借优质的生成效果与高度灵活性，迅速成为众多开源用户制作视频的心头好。在社区中，各类有趣的万相 LoRA 快速汇聚，涵盖动作特效、画风、角色、动态壁纸功能等类别。其中，动作特效类 LoRA 玩法丰富多样，深受用户喜爱。

我们在AIGC专区上架了万相14B的训练器，该训练器减少了训练成本，不需要复杂的环境配置，也不需要昂贵的本地显卡，提供训练集就可无痛训练。

素材处理

线条小狗（图片素材）

数量建议：

无严格限制，少的话20张以上就能训练。建议：50-100张

标注规范：

确保图片都有准确的描述标签，可以用自然语言也可以用tag，都能起作用。

不同类型的 LoRA 训练存在一定差异：

角色类：在准备数据集时，要确保训练集中角色动作保持一致。既可以使用个人创作的 AI 生成图像，也能用原创（oc）素材。若想固定角色形象，需保留核心特征，删除无关标签，将关键形象特点融入触发词。具体训练方法可参考往期视频教程。

画风类：画风类视频模型适用于风格迁移与创意激发。以油画风格模型为例，收集数据集并进行标注。标注时，务必留意视频中的特殊元素，精准标注才能训练出理想的画风模型。

更多训练详细信息参考：

ModelScope AIGC专区LoRA训练教程

https://www.modelscope.cn/learn/908?pid=917

【直播回放】通义万相2.1&LoRA微调经验分享 - 小红书

https://www.xiaohongshu.com/explore/67fce1d1000000001d00836b?xsec_token=ABRBnLyOn9lpX8Ej1Lf_uwWjSmfmqdTLm_2U-vvi9QNkY=&xsec_source=pc_user

训练参数

核心参数：

总学习率（Learning rate）：决定模型的学习速度，影响训练效率与效果。
每 N 轮保存一个 LoRA（Save every N epochs）：设定训练进度的保存间隔，类似游戏存档点，便于随时回溯与继续训练。
网络大小（Network rank dim）：通过调整 rank 值控制模型表达能力。大 rank 能捕捉更多特征与复杂模式，小 rank 可节省算力、降低过拟合风险。
网络 Alpha（Network alpha）：平衡原始权重矩阵与更新后权重矩阵的关系，合理的 alpha 值可避免参数更新幅度过大，保障模型收敛速度与最终性能。

数据目录参数：

数据目录参数单张次数（Repeat）：表示在每个训练周期内，同一数据被重复使用的次数，通过多次训练挖掘数据特征。
训练轮数（Train epochs）：即整个训练过程中，将所有训练数据完整学习的次数。这就好比把一本书从头到尾精读，训练轮数 30，就相当于将这本书通读 30 遍，加深模型对数据的理解与学习。