- 博客(143)
- 资源 (2)
- 问答 (6)
- 收藏
- 关注
原创 客家话ASR模型训练 | 如何让FunASR可以识别方言 | SenseVoice方言模型 | SenseVoice客家话模型 | Hakka ASR
本文介绍了使用SenseVoiceSmall模型在3090Ti上训练客家话ASR系统的完整流程。主要内容包括:1)数据来源及处理,从抖音、YouTube等平台采集2231条数据,利用开源工具进行字幕生成和音频切分;2)音频格式统一为16kHz单声道WAV格式;3)详细说明如何生成训练所需的jsonl文件;4)训练配置调整和启动方法;5)实时监控训练日志和可视化loss曲线的方法。整个过程涵盖了从数据准备到模型训练的关键步骤,为方言语音识别项目提供了实用指导。
2025-07-22 18:22:06
648
原创 如何使得SenseVoiceSmall具备识别方言的能力 | SenseVoiceSmall方言模型训练 | SenseVoiceSmall客家话模型 | 客家话ASR模型
本文介绍了基于阿里SenseVoiceSmall模型训练的客家话语音识别系统。研究针对虚拟数字人无法识别方言的问题,收集了2231条梅州、惠州和粤西客家话数据(含网络采集和自行录制),通过微调训练提升了模型在客家话识别上的表现。实验对比显示,训练后模型识别准确率显著优于原模型(如"你好大家好"识别正确率提升明显)。作者指出当前模型对非训练区域的客家话识别效果有限,建议至少使用200小时数据达到工业级水平,并欢迎其他方言训练需求合作。项目提供了Python测试代码和演示视频。
2025-07-21 12:50:25
549
原创 FunASR四川话方言语音识别模型部署详细过程 | 方言ASR部署过程 | Paraformer方言模型训练
这篇文章主要讲述了如何利用阿里开源的FunASR工具来训练一个方言ASR模型。其中讲到了如何准备数据,如何设置参数,如何训练,如何评估。
2025-07-17 16:18:17
815
原创 如何让FunASR可以识别四川话 | 四川话ASR | 开源的四川话ASR
主要介绍如何使用FunASR中的Paraformer识别四川话,可以把音频中的四川话转写为对应的文字。
2025-07-10 18:20:38
1055
原创 CentOS7中源码编译安装freeswitch
本文详细介绍了在CentOS系统上编译安装FreeSWITCH的完整步骤。主要内容包括: 安装系统依赖库和工具 编译安装CMake 3.23.0 安装libks和signalwire-c等支持库 编译安装x264视频编码库 安装mod_av模块所需的libav库 最终编译安装FreeSWITCH 1.10.2 配置环境变量和软链接 启动/停止FreeSWITCH的方法 整个过程涵盖了从基础依赖安装到最终服务的配置,为搭建FreeSWITCH VoIP服务器提供了完整的指导方案。
2025-06-22 17:40:48
223
原创 CentOS7.9部署FunASR实时语音识别接口 | 部署商用级别实时语音识别接口FunASR
这篇文章主要讲解如何在生产环境的CentOS7.9中部署一套实时语音识别接口供其它项目调用,可以解决在内网中部署实时语音识别接口问题。
2025-05-10 18:49:11
1012
原创 SenseVoice模型微调 | 如何提升语音识别在特定领域内识别的准确率
无论是开源的ASR还是收费的ASR都面临着一个问题,就是识别专有名词不准的问题,比如我这里可以基于阿里巴巴开源的FunASR项目中的SenseVoiceSmall模型做微调训练,使得可以准确识别特定领域内的名词,从而提升整体的准确率。
2025-04-19 06:01:58
1017
原创 一个基于OpenAI Whisper开发的音视频字幕文件生成工具
该工具可以把音视频转写为文字内容和包含时间戳的srt字幕文件,可以用于生成视频字幕文件,适用于自媒体制作视频字幕。
2025-04-15 04:42:14
1518
1
原创 解决SenseVoice识别专业名词不准问题 | Paraformer和SenseVoice模型训练
这是一个国内大厂开源的ASR模型,这篇文章主要讲述如何微调SenseVoice和Paraformer模型使得可以准确识别专业名词。
2025-04-12 05:51:24
565
1
原创 部署docker版本的FunASR
这是阿里开源的ASR模型,支持实时语音识别,可以用于外呼系统,智能呼叫中心系统,对通话录音进行实时转写。可用于在线会议字幕实时生成,直播实时字幕生成。
2025-04-12 05:35:56
1103
原创 Paraformer和SenseVoice模型训练
针对某些新的词汇,开源的ASR模型都无法识别,那么这个时候,我们就需要使用专业词汇进行微调了,这篇文章将会告诉你如果微调ASR模型,提升模型对专业名词识别的准确率。
2025-04-04 06:34:04
650
原创 ai说话人分离 | 基于语音大模型进行说话人拆分
我们在处理一段长音频时包含了多个人的声音,我们想要提取其中某个人的声音,那么我们该如何办呢?如果你会音频处理软件,比如AU,那么你可以使用它来处理,但是这要人工处理几条音频还能接受,如果是处理成千上万条音频呢,我们就必须要借助计算机来处理了。那么本篇文章主要记录我开发的一款可以根据音频中不同的说话人的声音来切分音频片段的软件。
2025-02-28 21:44:55
1895
原创 根据音频中的不同讲述人声音进行分离音频 | 基于ai的说话人声音分离项目
基于funasr实现的可以分离一条录音中不同的说话人的声音,并且支持进行合成相同说话人的声音为一条音频,同时支持视频切片处理。
2025-02-22 23:06:15
3106
原创 服务器中部署大模型DeepSeek-R1 | 本地部署DeepSeek-R1大模型 | deepseek-r1部署详细教程
本篇文章主要讲述如何在本地电脑安装部署国产大模型deepseek-r1,通过ollama方式轻松部署deepseek-r1大模型,通过chatbox方式在本地访问deepseek-r1大模型。同时支持在服务器上部署国产大模型deepseek-r1,支持在CentOS或者Ubuntu中部署大模型deepseek r1大模型。
2025-02-14 18:13:18
833
原创 funasr训练模型报错TypeError: device.__init__() missing 1 required positional argument: ‘device‘解决方法
报错TypeError: device.init() missing 1 required positional argument: 'device’解决方法
2025-02-11 15:58:43
702
原创 解决安装pynini和WeTextProcessing报错问题
这篇文章主要记录自己如何解决pynini和WeTextProcessing依赖报错问题
2025-01-01 05:37:30
4971
2
原创 基于3D-Speaker进行区分说话人项目搭建过程报错记录 | 通话录音说话人区分以及语音识别 | 声纹识别以及语音识别 | pyannote-audio
本篇文章主要讲述使用3d-speaker进行说话人区分,以及如何优化目前没法区分说话人的情况,通过vad算法对音频进行片段化计算每个片段的声纹特征值向量,然后通过无监督聚类算法实现声纹特征值相似的音频片段聚类。
2024-12-25 02:19:21
1527
原创 开源的说话人分离项目 | 可以对指定的音频分离不同的说话人 | 通话录音中分离不同的说话人
这个程序适合个人 PC 端使用,如果需要服务端接口,支持多路并发,支持大规模集群部署,欢迎联系我。安装 torch,需要根据你电脑情况安装不同的版本,具体可以到 torch 中复制命令安装。安装 ffmpeg,可以到 ffmpeg 官方地址中下载可执行程序,配置环境变量。个人技术博客2:https://blog.lukeewin.top。个人技术博客1:https://lukeewin.top。如果使用 GPU 来运行,需要安装好 CUDA。本地可运行的说话人拆分 | 说话人分离。
2024-11-15 00:20:11
1684
原创 训练实时语音识别Paraformer模型
最近有一位研二的学生添加我的微信,付费让我给她训练模型。市面上的语音识别模型基本上都是通用识别模型,对于特定领域的识别字错率太高了。比如专门针对航空领域的语音识别就不尽如意,因为在航空领域中有一些航空的专有名词,训练模型的时候未必训练到,并且航空领域中的读数字的读音也和我们日常中的不一样,所以我们想要让模型识别的字错率更低,那么就很有必要对市面上开源的模型进行训练。这里由那位研究生提供了条音频数据,音频采样率是。数据分为训练集和验证集,这里使用的数据作为验证集,也就是使用条数据作为验证集。数据的格式要求如下
2024-11-10 20:05:35
2009
5
原创 MeloTTS搭建教程
最近有公司找到我,咨询我有没有好用的开源TTS,并且要求速度要极快,要求支持流式,主要用于对接智能呼叫中心系统。TTS就犹如呼叫中心系统的嘴巴,如果响应时间满了,就会遭到用户的嫌弃。于是有了在网上搜索到了开源的一款TTS,该TTS由于是基于MIT协议开源的,允许开发者自由使用、复制、修改、合并、发布和分发软件,包括用于商业目的。商用的TTS虽然方便,但是要支付昂贵的费用,因此此研究,用于市面上开源的TTS代替商用的TTS,从而达到节省公司开支的目录。更多详细的内容可以访问或者。
2024-11-10 19:58:36
1656
5
原创 CentOS7系统内核升级
采用离线方式升级去到下面网站中下载rpm安装包下载安装先安装安装好后,查看系统中有哪些内核设定使用哪个内核修改配置文件重新生成grub配置文件重启系统reboot。
2024-10-27 01:52:40
968
原创 FunASR实时语音识别内网部署 | 无网络环境中的实时语音识别 | 实时语音识别
本篇文章记录自己在无网络的情况下如何搭建一个实时语音识别的过程,使用的时开源的funasr,支持在CPU和GPU下运行
2024-10-17 18:11:10
3293
原创 如何把huggingface格式的whisper模型转为openai格式
openai目前提供的模型有共11种,其中en结尾的是英语模型,由于whisper模型的微调开源的,在中可以找到各种微调后的模型,比如针对识别泰语优化的模型,我们可以使用格式的模型来使用whisper进行语音识别,那如果我想要在原先已经写好的基于openai格式的whisper模型进行语音识别,那么我们就需要想办法把格式的whisper模型转为openai格式,这也是本篇文章要讲的内容。
2024-08-21 02:28:36
912
2
原创 如何解决OMP: Error #15: Initializing libiomp5md.dll, but found libiomp5md.dll already initialized.报错?
如何解决OMP: Error #15: Initializing libiomp5md.dll, but found libiomp5md.dll already initialized.报错?
2024-08-16 13:22:34
1009
原创 Ubuntu部署LangChain-Chatchat
本篇文章主要给大家讲解如何在Ubuntu服务器中部署一套本地知识库问答系统,该问答系统利用了当下最流行的大模型语言和向量数据库通过LangChain进行关联的问答系统,可以用到智能客服等领域。
2024-04-06 16:50:28
1224
原创 Linux安装Whisper-Jax
本篇文章主要记录我搭建whisper-jax的详细过程遇到的各种问题,比如:无法访问huggingface导致模型无法自动下载的问题,如何修改源码使得可以在内网部署。
2024-03-09 11:49:46
1168
原创 跨域解决方案
最近在基于大模型做一个前后端分离的小项目,主要是支持用户自定义自己的机器人。我是负责后端开发,使用SpringBoot开发,前端是另外一个专门负责开发前端的大佬在开发。这里就有一个问题,我后端接口的ip和端口与前端不同,也不可能相同,这就会形成跨域问题了。可以在SpringBoot方面解决跨域问题,也可以在Nginx方面解决跨域问题。这篇文章重点讲如何在SpringBoot方面解决跨域问题。
2024-02-28 00:23:19
726
原创 SpringBoot基于JWT的token做登录认证
我们在基于Session做登录认证的时候,会有一些问题,因为Session存储到服务器端,然后通过客户端的Cookie进行匹配,如果正确,则通过认证,否则不通过认证。这在简单的系统中可以这么使用,并且难道是最低的,但是如果在大型分布式项目中,如果还是基于Session做登录认证的话,就不可行了。这篇文章主要给大家讲述如何基于jwt的token实现登录认证。
2024-02-21 09:22:14
1468
原创 Java中基于Session登录验证
为啥能用Session作为登录验证的一种方式,因为每个用户的请求都会有一个Session,这个对象是。因此,我们可以利用这个特性保存用户的登录信息。下面是具体的代码:通过请求登录接口校验输入的用户名和密码是否正确,如果正确就把这个用户信息保存到。集合,获取到值后和数据库进行比对,如果用户名和密码一致就放行,否则拦截。给我们创建的,不需要我们手动创建,并且这个对象的作用域为整个。可以存储一些内容,相当于全局缓存,并且这个。页面,也就是在整个项目中,这个。有默认的过期时间,默认为。对象中的值,可以在各个。
2024-02-19 15:05:31
945
数据库连接工具Navicat
2020-09-18
一台电脑能同时安装多个不同版本的idea吗?
2022-07-31
请问这两家公司应该如何选择?
2022-07-16
公司录用没有发offer?
2022-07-14
同时有两家公司录用应该怎么选择?
2022-07-14
调用函数执行ajax发送post请求时,页面卡住,点击不动
2022-04-27
tomcat中的所有servlet项目无法访问,没有使用开发工具idea和eclipse
2021-03-18
TA创建的收藏夹 TA关注的收藏夹
TA关注的人