自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Luke Ewin的博客

记录和分享Java学习过程的博客平台

  • 博客(143)
  • 资源 (2)
  • 问答 (6)
  • 收藏
  • 关注

原创 客家话ASR模型训练 | 如何让FunASR可以识别方言 | SenseVoice方言模型 | SenseVoice客家话模型 | Hakka ASR

本文介绍了使用SenseVoiceSmall模型在3090Ti上训练客家话ASR系统的完整流程。主要内容包括:1)数据来源及处理,从抖音、YouTube等平台采集2231条数据,利用开源工具进行字幕生成和音频切分;2)音频格式统一为16kHz单声道WAV格式;3)详细说明如何生成训练所需的jsonl文件;4)训练配置调整和启动方法;5)实时监控训练日志和可视化loss曲线的方法。整个过程涵盖了从数据准备到模型训练的关键步骤,为方言语音识别项目提供了实用指导。

2025-07-22 18:22:06 648

原创 如何使得SenseVoiceSmall具备识别方言的能力 | SenseVoiceSmall方言模型训练 | SenseVoiceSmall客家话模型 | 客家话ASR模型

本文介绍了基于阿里SenseVoiceSmall模型训练的客家话语音识别系统。研究针对虚拟数字人无法识别方言的问题,收集了2231条梅州、惠州和粤西客家话数据(含网络采集和自行录制),通过微调训练提升了模型在客家话识别上的表现。实验对比显示,训练后模型识别准确率显著优于原模型(如"你好大家好"识别正确率提升明显)。作者指出当前模型对非训练区域的客家话识别效果有限,建议至少使用200小时数据达到工业级水平,并欢迎其他方言训练需求合作。项目提供了Python测试代码和演示视频。

2025-07-21 12:50:25 549

原创 FunASR四川话方言语音识别模型部署详细过程 | 方言ASR部署过程 | Paraformer方言模型训练

这篇文章主要讲述了如何利用阿里开源的FunASR工具来训练一个方言ASR模型。其中讲到了如何准备数据,如何设置参数,如何训练,如何评估。

2025-07-17 16:18:17 815

原创 如何让FunASR可以识别四川话 | 四川话ASR | 开源的四川话ASR

主要介绍如何使用FunASR中的Paraformer识别四川话,可以把音频中的四川话转写为对应的文字。

2025-07-10 18:20:38 1055

原创 PyCharm中提交本地代码到远程代码仓库

本篇文章记录如何把本地代码提交到github中,通过PyCharm工具。

2025-07-03 00:57:57 162

原创 CentOS7中源码编译安装freeswitch

本文详细介绍了在CentOS系统上编译安装FreeSWITCH的完整步骤。主要内容包括: 安装系统依赖库和工具 编译安装CMake 3.23.0 安装libks和signalwire-c等支持库 编译安装x264视频编码库 安装mod_av模块所需的libav库 最终编译安装FreeSWITCH 1.10.2 配置环境变量和软链接 启动/停止FreeSWITCH的方法 整个过程涵盖了从基础依赖安装到最终服务的配置,为搭建FreeSWITCH VoIP服务器提供了完整的指导方案。

2025-06-22 17:40:48 223

原创 CentOS7.9部署FunASR实时语音识别接口 | 部署商用级别实时语音识别接口FunASR

这篇文章主要讲解如何在生产环境的CentOS7.9中部署一套实时语音识别接口供其它项目调用,可以解决在内网中部署实时语音识别接口问题。

2025-05-10 18:49:11 1012

原创 SenseVoice模型微调 | 如何提升语音识别在特定领域内识别的准确率

无论是开源的ASR还是收费的ASR都面临着一个问题,就是识别专有名词不准的问题,比如我这里可以基于阿里巴巴开源的FunASR项目中的SenseVoiceSmall模型做微调训练,使得可以准确识别特定领域内的名词,从而提升整体的准确率。

2025-04-19 06:01:58 1017

原创 一个基于OpenAI Whisper开发的音视频字幕文件生成工具

该工具可以把音视频转写为文字内容和包含时间戳的srt字幕文件,可以用于生成视频字幕文件,适用于自媒体制作视频字幕。

2025-04-15 04:42:14 1518 1

原创 解决SenseVoice识别专业名词不准问题 | Paraformer和SenseVoice模型训练

这是一个国内大厂开源的ASR模型,这篇文章主要讲述如何微调SenseVoice和Paraformer模型使得可以准确识别专业名词。

2025-04-12 05:51:24 565 1

原创 Ubuntu中部署MeloTTS

这是一个支持中英混合合成的TTS。

2025-04-12 05:38:24 430 1

原创 部署docker版本的FunASR

这是阿里开源的ASR模型,支持实时语音识别,可以用于外呼系统,智能呼叫中心系统,对通话录音进行实时转写。可用于在线会议字幕实时生成,直播实时字幕生成。

2025-04-12 05:35:56 1103

原创 3D-Speaker模型微调

这是一个由阿里开源的声纹识别,声纹对比的项目,如果你想要微调训练,可以看看这篇文章。

2025-04-12 05:32:36 438 1

原创 Paraformer和SenseVoice模型训练

针对某些新的词汇,开源的ASR模型都无法识别,那么这个时候,我们就需要使用专业词汇进行微调了,这篇文章将会告诉你如果微调ASR模型,提升模型对专业名词识别的准确率。

2025-04-04 06:34:04 650

原创 ai说话人分离 | 基于语音大模型进行说话人拆分

我们在处理一段长音频时包含了多个人的声音,我们想要提取其中某个人的声音,那么我们该如何办呢?如果你会音频处理软件,比如AU,那么你可以使用它来处理,但是这要人工处理几条音频还能接受,如果是处理成千上万条音频呢,我们就必须要借助计算机来处理了。那么本篇文章主要记录我开发的一款可以根据音频中不同的说话人的声音来切分音频片段的软件。

2025-02-28 21:44:55 1895

原创 纯CPU跑DeepSeek-R1 671b大模型

纯CPU跑DeepSeek-R1 671b大模型

2025-02-23 16:30:25 1515

原创 根据音频中的不同讲述人声音进行分离音频 | 基于ai的说话人声音分离项目

基于funasr实现的可以分离一条录音中不同的说话人的声音,并且支持进行合成相同说话人的声音为一条音频,同时支持视频切片处理。

2025-02-22 23:06:15 3106

原创 服务器中部署大模型DeepSeek-R1 | 本地部署DeepSeek-R1大模型 | deepseek-r1部署详细教程

本篇文章主要讲述如何在本地电脑安装部署国产大模型deepseek-r1,通过ollama方式轻松部署deepseek-r1大模型,通过chatbox方式在本地访问deepseek-r1大模型。同时支持在服务器上部署国产大模型deepseek-r1,支持在CentOS或者Ubuntu中部署大模型deepseek r1大模型。

2025-02-14 18:13:18 833

原创 funasr训练模型报错TypeError: device.__init__() missing 1 required positional argument: ‘device‘解决方法

报错TypeError: device.init() missing 1 required positional argument: 'device’解决方法

2025-02-11 15:58:43 702

原创 安装MeloTTS报错解决方法

这篇博客内容主要记录搭建TTS语音合成过程中遇到的报错问题的解决方法。

2025-01-24 20:25:56 707 1

原创 Ubuntu中无法使用root登录解决方法

本篇文章记录如何解决无法使用root登录ubuntu系统的问题

2025-01-11 01:35:28 1456

原创 解决安装pynini和WeTextProcessing报错问题

这篇文章主要记录自己如何解决pynini和WeTextProcessing依赖报错问题

2025-01-01 05:37:30 4971 2

原创 基于3D-Speaker进行区分说话人项目搭建过程报错记录 | 通话录音说话人区分以及语音识别 | 声纹识别以及语音识别 | pyannote-audio

本篇文章主要讲述使用3d-speaker进行说话人区分,以及如何优化目前没法区分说话人的情况,通过vad算法对音频进行片段化计算每个片段的声纹特征值向量,然后通过无监督聚类算法实现声纹特征值相似的音频片段聚类。

2024-12-25 02:19:21 1527

原创 MeloTTS中文模型训练

这篇博文主要记录我使用MeloTTS训练中文语音合成模型的过程。MeloTTS中文模型训练。

2024-12-17 01:58:54 1604

原创 开源的说话人分离项目 | 可以对指定的音频分离不同的说话人 | 通话录音中分离不同的说话人

这个程序适合个人 PC 端使用,如果需要服务端接口,支持多路并发,支持大规模集群部署,欢迎联系我。安装 torch,需要根据你电脑情况安装不同的版本,具体可以到 torch 中复制命令安装。安装 ffmpeg,可以到 ffmpeg 官方地址中下载可执行程序,配置环境变量。个人技术博客2:https://blog.lukeewin.top。个人技术博客1:https://lukeewin.top。如果使用 GPU 来运行,需要安装好 CUDA。本地可运行的说话人拆分 | 说话人分离。

2024-11-15 00:20:11 1684

原创 训练实时语音识别Paraformer模型

最近有一位研二的学生添加我的微信,付费让我给她训练模型。市面上的语音识别模型基本上都是通用识别模型,对于特定领域的识别字错率太高了。比如专门针对航空领域的语音识别就不尽如意,因为在航空领域中有一些航空的专有名词,训练模型的时候未必训练到,并且航空领域中的读数字的读音也和我们日常中的不一样,所以我们想要让模型识别的字错率更低,那么就很有必要对市面上开源的模型进行训练。这里由那位研究生提供了条音频数据,音频采样率是。数据分为训练集和验证集,这里使用的数据作为验证集,也就是使用条数据作为验证集。数据的格式要求如下

2024-11-10 20:05:35 2009 5

原创 MeloTTS搭建教程

最近有公司找到我,咨询我有没有好用的开源TTS,并且要求速度要极快,要求支持流式,主要用于对接智能呼叫中心系统。TTS就犹如呼叫中心系统的嘴巴,如果响应时间满了,就会遭到用户的嫌弃。于是有了在网上搜索到了开源的一款TTS,该TTS由于是基于MIT协议开源的,允许开发者自由使用、复制、修改、合并、发布和分发软件,包括用于商业目的。商用的TTS虽然方便,但是要支付昂贵的费用,因此此研究,用于市面上开源的TTS代替商用的TTS,从而达到节省公司开支的目录。更多详细的内容可以访问或者。

2024-11-10 19:58:36 1656 5

原创 CentOS7系统内核升级

采用离线方式升级去到下面网站中下载rpm安装包下载安装先安装安装好后,查看系统中有哪些内核设定使用哪个内核修改配置文件重新生成grub配置文件重启系统reboot。

2024-10-27 01:52:40 968

原创 Linux基础命令

本篇文章主要讲解Linux常用的基础命令包括像vim中常用的命令。

2024-10-27 01:50:31 314

原创 FunASR实时语音识别内网部署 | 无网络环境中的实时语音识别 | 实时语音识别

本篇文章记录自己在无网络的情况下如何搭建一个实时语音识别的过程,使用的时开源的funasr,支持在CPU和GPU下运行

2024-10-17 18:11:10 3293

原创 如何把huggingface格式的whisper模型转为openai格式

openai目前提供的模型有共11种,其中en结尾的是英语模型,由于whisper模型的微调开源的,在中可以找到各种微调后的模型,比如针对识别泰语优化的模型,我们可以使用格式的模型来使用whisper进行语音识别,那如果我想要在原先已经写好的基于openai格式的whisper模型进行语音识别,那么我们就需要想办法把格式的whisper模型转为openai格式,这也是本篇文章要讲的内容。

2024-08-21 02:28:36 912 2

原创 如何解决OMP: Error #15: Initializing libiomp5md.dll, but found libiomp5md.dll already initialized.报错?

如何解决OMP: Error #15: Initializing libiomp5md.dll, but found libiomp5md.dll already initialized.报错?

2024-08-16 13:22:34 1009

原创 安装nodejs

本篇文章记录如何安装nodejs,以及修改使用国内镜像源

2024-07-25 16:24:40 223

原创 MySQL中导出CSV格式数据 | Java处理CSV数据

MySQL导出CSV数据,以及Java处理CSV数据

2024-05-14 01:05:15 670 1

原创 Ubuntu部署LangChain-Chatchat

本篇文章主要给大家讲解如何在Ubuntu服务器中部署一套本地知识库问答系统,该问答系统利用了当下最流行的大模型语言和向量数据库通过LangChain进行关联的问答系统,可以用到智能客服等领域。

2024-04-06 16:50:28 1224

原创 Linux安装Whisper-Jax

本篇文章主要记录我搭建whisper-jax的详细过程遇到的各种问题,比如:无法访问huggingface导致模型无法自动下载的问题,如何修改源码使得可以在内网部署。

2024-03-09 11:49:46 1168

原创 报错sql_mode=only_full_group_by的解决方案

报错sql_mode=only_full_group_by的解决方案

2024-03-09 11:40:16 643

原创 跨域解决方案

最近在基于大模型做一个前后端分离的小项目,主要是支持用户自定义自己的机器人。我是负责后端开发,使用SpringBoot开发,前端是另外一个专门负责开发前端的大佬在开发。这里就有一个问题,我后端接口的ip和端口与前端不同,也不可能相同,这就会形成跨域问题了。可以在SpringBoot方面解决跨域问题,也可以在Nginx方面解决跨域问题。这篇文章重点讲如何在SpringBoot方面解决跨域问题。

2024-02-28 00:23:19 726

原创 SpringBoot基于JWT的token做登录认证

我们在基于Session做登录认证的时候,会有一些问题,因为Session存储到服务器端,然后通过客户端的Cookie进行匹配,如果正确,则通过认证,否则不通过认证。这在简单的系统中可以这么使用,并且难道是最低的,但是如果在大型分布式项目中,如果还是基于Session做登录认证的话,就不可行了。这篇文章主要给大家讲述如何基于jwt的token实现登录认证。

2024-02-21 09:22:14 1468

原创 Java中基于Session登录验证

为啥能用Session作为登录验证的一种方式,因为每个用户的请求都会有一个Session,这个对象是。因此,我们可以利用这个特性保存用户的登录信息。下面是具体的代码:通过请求登录接口校验输入的用户名和密码是否正确,如果正确就把这个用户信息保存到。集合,获取到值后和数据库进行比对,如果用户名和密码一致就放行,否则拦截。给我们创建的,不需要我们手动创建,并且这个对象的作用域为整个。可以存储一些内容,相当于全局缓存,并且这个。页面,也就是在整个项目中,这个。有默认的过期时间,默认为。对象中的值,可以在各个。

2024-02-19 15:05:31 945

Kali的安装.md

Kali Linux 2020.4版本在VM的安装过程

2021-02-01

数据库连接工具Navicat

Navicat是连接数据库的工具,可以连接mysql数据库,能够同时连接管理多个mysql数据库。友好的图形操作界面,简单的操作就能够连接上本地和云端的mysql服务器。

2020-09-18

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除