【dify案例分享】三步实现音视频转文字,提高工作效率!

1、前言

视频转文字技术是一种将视频中的语音和文字信息转化为可编辑、可搜索的文本格式的技术,其核心在于利用语音识别(ASR)和自然语言处理(NLP)技术,实现对视频内容的高效提取和转换。这项技术广泛应用于教育、内容创作、法律、医疗等领域,为用户提供了便捷的信息获取方式。

技术原理与实现步骤
视频转文字技术通常包括以下几个关键步骤:

  1. 音频提取:从视频中提取音频部分,通常通过解码视频文件获取音频流。
  2. 音频预处理:对音频进行降噪、去除杂音和增强等操作,以提高语音识别的准确性。
  3. 语音识别:利用深度学习模型(如循环神经网络RNN或转录注意力模型TAM)将语音信号转化为文本。
  4. 文本后处理:对识别出的文本进行拼写纠正、语法修正和标点符号添加等操作,以提高最终文本的质量。

image-20250520100643010

我们学习和工作中经常会遇到视频转文字,会议纪要转录文字稿等需求,今天就带大家使用dify工作流来实现这个音视频转文字,再将文字内容整理成文字稿的工作流。

下面是工作流:

image-20250520103737363

image-20250520104210420

通过上面的工作流我们就可以把一个音视频的内容转出文字稿输出。可以实现视频、会议纪要总结等功能,大大提高我们学习和工作的效率。话不多说,下面带大家来实现这个工作流。

2、工作流的制作

我们回到dify工作台,新建一个chatflow工作流,如下图:

image-20250520104540531

开始

这个开始节点这里我们有1个参数,这个参数主要是提供用户上传的音视频文件。

image-20250520104643723

提取音频

这个使用dify的一个 ffmpeg工具,FFmpeg 是一个功能强大且灵活的多媒体处理工具,适用于音视频编辑、转码、流媒体传输等多种场景。其广泛的格式支持、高效的性能优化、丰富的功能模块以及跨平台兼容性使其成为多媒体领域不可或缺的工具之一。

我们这里主要用到的它视频转音频功能。

我们在插件市场查找ffmpeg,然后点击安装。

image-20250520105313615

安装完成后,我们可以在插件列表中查找到。

image-20250520105402702

我们回到dify工作流平台,按照下面截图步骤 1、2、3、4 把工具添加到工作流中。

image-20250520105612022

提取音频工具中,有2个参数,我们这块其中第一个参数是获取上面开始节点的视频文件。第二个参数是转换的输出格式,目前提取音频

格式(mp3、aac、wav、ogg、flac)

image-20250520110032581

音频提取输出(可选)

我们在工作流添加一个直接回复,这个主要是方便调试。我们需要了解上个流程节点视频转音频文件是否能够生成

image-20250520110230731

image-20250520110202628

Speech To Text

这里我们用的一个叫做Speech To Text的工具。

image-20250520110417448

这个语音转文本工具,也是有2个参数。第一个参数需要音频文件,第二个参数需要ASR模型。

其中第一个参数就是上个节点中(ffmpeg 提供的提取音频)音频输出。

image-20250520110631536

第二个模型这里我们选择硅基流动提供的最新的智谱提供的FunAudioLLM/SenseVoiceSmall的模型。如果没有硅基的小伙伴可以去这个地址https://cloud.siliconflow.cn/i/e0f6GCrN 新户可以送14元。

image-20250520110952464

我们可以在系统模型中把这个ASR模型提前配置好。

image-20250520111108638

model 选择这个模型。 配置完成的截图如下:

image-20250520111216810

音频转文字输出(可选)

这个我们为了方便测试把Speech To Text 输出的音频文件也输出。(这个节点可以不需要,大家可以根据自己需要设置)

image-20250520111512946

音频转文字总结LLM

这里我们使用大语言模型将音频转文字进行总结归纳,这里我们使用火山引擎提供的deepseek-v3 模型。这里关键点就是提示词。

系统提示词

# Role: 音视频内容总结专家

## Profile
- 专业领域: 音视频内容分析、文本摘要、内容提炼
- 专长: 从音视频转录文本中提取关键信息并生成简洁明了的总结
- 经验: 10年媒体内容分析经验,5年AI辅助内容处理经验
- 教育背景: 传播学硕士,计算机科学学士

## Skills
- 精通内容关键信息提取和主题识别
- 擅长结构化分析叙事内容和情节发展
- 熟练掌握多种总结技巧(摘要式、要点式、图表式等)
- 能够识别和保留内容中的情感基调和核心观点
- 具备跨领域知识,能够理解各类专业内容

## Goals
- 准确提取音视频内容中的核心信息和关键要点
- 保留原始内容的主要情节和情感基调
- 生成结构清晰、逻辑连贯的内容总结
- 根据不同内容类型(教育、娱乐、新闻等)调整总结风格
- 确保总结内容简洁且信息丰富,便于快速理解

## Constraints
- 总结长度应控制在原始内容的10-20%之间
- 不添加原始内容中不存在的信息或个人观点
- 避免使用过于主观的评价性语言
- 保持内容的中立性,不偏向特定立场
- 尊重原创内容,不歪曲原意

## WorkFlow
1. 仔细分析音视频转录文本,识别核心主题和关键信息
2. 确定内容类型(故事、教程、访谈、新闻等)并选择适当的总结结构
3. 提取主要情节、关键人物、重要事件和核心观点
4. 按时间顺序或逻辑关系组织信息
5. 撰写简洁明了的总结,保留原内容的核心价值
6. 检查总结是否完整反映了原始内容的要点
7. 根据需要调整总结格式(段落式、要点式或混合式)

## OutputFormat
{
  "内容类型": "故事/教程/访谈/新闻/其他",
  "核心主题": "简明扼要的主题描述",
  "总结正文": "详细的内容总结,可使用段落式或要点式",
  "关键要点": [
    "要点1",
    "要点2",
    "要点3"
  ],
  "情感基调": "内容的整体情感或氛围描述"
}

## Examples
### 例1: 故事类内容
用户输入: "在一个阳光明媚的午后,机器猫哆啦A梦躺在沙发上打盹,4次元口袋突然发出诡异的嗡鸣声。随着一声巨响,天线帽、竹蜻蜓和记忆面包等道具像喷泉一样涌出,将它挤成了一个蓝色毛球,惹得静香捂嘴偷笑,面对失控的4次元口袋。哆啦A梦紧急掏出时空缝合器。但道具刚接触口袋裂口,却意外释放出彩虹色的时间乱流,把大熊的书包、铜锣烧和穿越时空地图等物品卷入了空中漩涡。整间屋子飘满了闪着光的悬浮物品,最终哆啦A梦冒险钻入4次元口袋内部,用迷你清洁机器人疏通了时空管道,修复后的口袋涌出金粉般的修复粒子,将混乱场景瞬间改造成星空闪耀的奇幻空间,竞香伸手触碰悬浮的猫形光斑,笑眼弯弯。"

输出:
{
  "内容类型": "故事",
  "核心主题": "哆啦A梦的四次元口袋故障冒险",
  "总结正文": "在一个阳光明媚的午后,哆啦A梦的四次元口袋突然失控,各种道具喷涌而出。尝试使用时空缝合器修复时,意外引发时间乱流,将更多物品卷入空中。最终,哆啦A梦进入口袋内部,用迷你清洁机器人修复了故障,将混乱场景转变为奇幻星空,让静香感到惊喜。",
  "关键要点": [
    "哆啦A梦的四次元口袋突然失控,道具喷涌而出",
    "使用时空缝合器时意外引发更大混乱",
    "哆啦A梦进入口袋内部成功修复故障",
    "混乱场景转变为美丽的星空奇幻空间"
  ],
  "情感基调": "轻松幽默,充满奇幻色彩"
}

### 例2: 教育类内容
用户输入: [教育视频转录文本]

输出:
{
  "内容类型": "教程",
  "核心主题": "...",
  "总结正文": "...",
  "关键要点": [
    "...",
    "...",
    "..."
  ],
  "情感基调": "..."
}

## Rules
1. 始终保持客观中立,不添加个人观点
2. 确保总结涵盖所有关键信息点
3. 根据内容类型调整总结风格和结构
4. 保持总结的简洁性和可读性
5. 尊重原始内容的情感基调和核心观点
6. 对于较长内容,适当增加关键要点数量
7. 对于专业内容,保留必要的专业术语

## Initialization
作为音视频内容总结专家,我已准备好帮助您提取和总结音视频转录文本中的关键信息。请提供您需要总结的音视频转录文本,我将分析内容并生成一个结构清晰、信息丰富的总结。无论是故事、教程、访谈还是新闻报道,我都能够识别其核心主题和关键要点,并以适当的格式呈现给您。

用户提示词

请根据{{#1747705303679.text#}}总结归纳

image-20250520111831384

音频转文字总结回复

这个就比较简单的LLM大语言模型总结音频文件内容进行输出。

image-20250520111951197

以上我们就完成了工作流的搭建。

3、测试及验证

点击工作流左上角“预览” 按钮打开工作流。传入本地文件

image-20250520112126119

点击运行就可以实现了。

image-20250520112609228

我们也可以把工作流分享给其他小伙伴使用。

4、总结

今天主要带大家了解并实现了利用 Dify 工作流完成音视频转文字并总结的功能。借助 Dify 丰富的插件和灵活的工作流设计能力,我们通过新建工作流,依次添加开始、提取音频、语音转文本、音频转文字总结等节点,成功搭建了一个可以将音视频内容转换为文字稿并进行总结归纳的工作流。这个工作流能够大大提高我们学习和工作的效率,无论是处理会议纪要、视频教程还是其他音视频资料,都能快速准确地获取关键信息。感兴趣的小伙伴可以按照本文的步骤进行尝试,相信会为你的工作和学习带来便利。

那么,如何系统的去学习大模型LLM?

作为一名从业五年的资深大模型算法工程师,我经常会收到一些评论和私信,我是小白,学习大模型该从哪里入手呢?我自学没有方向怎么办?这个地方我不会啊。如果你也有类似的经历,一定要继续看下去!这些问题啊,也不是三言两语啊就能讲明白的。

所以我综合了大模型的所有知识点,给大家带来一套全网最全最细的大模型零基础教程。在做这套教程之前呢,我就曾放空大脑,以一个大模型小白的角度去重新解析它,采用基础知识和实战项目相结合的教学方式,历时3个月,终于完成了这样的课程,让你真正体会到什么是每一秒都在疯狂输出知识点。

由于篇幅有限,⚡️ 朋友们如果有需要全套 《2025全新制作的大模型全套资料》,扫码获取~
在这里插入图片描述

👉大模型学习指南+路线汇总👈

我们这套大模型资料呢,会从基础篇、进阶篇和项目实战篇等三大方面来讲解。
在这里插入图片描述
在这里插入图片描述

👉①.基础篇👈

基础篇里面包括了Python快速入门、AI开发环境搭建及提示词工程,带你学习大模型核心原理、prompt使用技巧、Transformer架构和预训练、SFT、RLHF等一些基础概念,用最易懂的方式带你入门大模型。
在这里插入图片描述

👉②.进阶篇👈

接下来是进阶篇,你将掌握RAG、Agent、Langchain、大模型微调和私有化部署,学习如何构建外挂知识库并和自己的企业相结合,学习如何使用langchain框架提高开发效率和代码质量、学习如何选择合适的基座模型并进行数据集的收集预处理以及具体的模型微调等等。
在这里插入图片描述

👉③.实战篇👈

实战篇会手把手带着大家练习企业级的落地项目(已脱敏),比如RAG医疗问答系统、Agent智能电商客服系统、数字人项目实战、教育行业智能助教等等,从而帮助大家更好的应对大模型时代的挑战。
在这里插入图片描述

👉④.福利篇👈

最后呢,会给大家一个小福利,课程视频中的所有素材,有搭建AI开发环境资料包,还有学习计划表,几十上百G素材、电子书和课件等等,只要你能想到的素材,我这里几乎都有。我已经全部上传到CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
在这里插入图片描述
相信我,这套大模型系统教程将会是全网最齐全 最易懂的小白专用课!!

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值