将yolov8预训练模型放在云服务器上训练

一、前言

虽然yolov8在本机上训练起来比残差神经网络等快,但是,应该也有不少朋友拿着像我一样的轻薄本,训练一轮电脑都快要炸了一样热的发烫,等待的时间又慢长,并且真实的情况根本不允许我们电脑慢悠悠的跑完,因此只能借助云服务器帮我们跑代码。

二、魔搭服务器

先我们需要租一台云服务器。

魔搭上有免费使用36小时,8核,显存24G的服务器,训练一般的模型应该是足够了。魔搭网页地址:https://www.modelscope.cn/

进入之后,首先领取免费使用时长。当领取完之后,点击侧边栏我的Notebook按钮,然后选中GPU环境,点击启动即可。

操作步骤如图所示:

在这里插入图片描述
这里要提醒一下,每次关闭实例,服务器中的文件都会被清空,所以要及时下载需要保存的文件。

启动成功之后,点击查看Notebook,即可使用服务器。
在这里插入图片描述

启动后界面如下:
启动后的界面

三、使用

1. 安装使用的包

在控制台中输入下面的命令,进行环境安装。

	pip install ultralytics

2. 拉取yolov8模型

点击右上角像刷子一样的按钮
在这里插入图片描述

输入:
https://github.com/ultralytics/ultralytics
然后将两个勾选框都勾选上,点击下方clone,从github上拉取yolov8模型。
在这里插入图片描述

拉取成功后会出现一个ultralytics目录,目录下的文件目录如下:
在这里插入图片描述

3. 上传相关资源

1)上传要训练的yolo数据集,放在ultralytics目录下。上传时需要进行压缩,压缩完之后,直接从本地拖拽即可。
上传完后进行解压,如果时zip格式,到数据集的根目录下,输入 unzip 文件名 即可解压。

2)上传yolo预训练的参数模型。预训练模型在服务器上下载太慢了,自己上传会更快一点,当然你也可以选择从服务器上下载,如果使用了预训练模型,代码没有错误的话,运行代码,就会自动下载。

3)上传自己要运行的代码。
我要运行的代码是main.py,上传完成后的目录如下:
在这里插入图片描述

4. 修改配置文件

首先,在控制台中运行一下自己要运行的代码。我的话是在控制台来到项目目录之后,输入:

python main.py

之后,如果你的代码没问题的话,可以看到如下所示的报错:
在这里插入图片描述
意思是根据配置文件的路径,没有找到我们的数据集。因此,我们需要改一改配置文件。在控制台下输入下面一行:

vi /root/.config/Ultralytics/settings.yaml

这一行代码的意思是是用vi编辑器进行打开。Vi编辑器点击i按键,代表来的修改状态,然后就可以修改文件了。修改完成之后,点击Esc,退出编辑模式,然后输入 :w 即可保存。输入 :q 退出vi编辑器。Vi编辑器的更多用法可以自行搜索。

打开之后,将datasets_dir后的值修改为你数据集的父目录路径。像我的话会修改成:

datasets_dir: /mnt/workspace/urtralytics

然后保存。

然后,就可以运行自己的代码训练训练模型啦。

### 如何使用 FunASR 加载语音识别预训练模型 为了加载并使用 FunASR 中的预训练语音识别模型,可以通过特定命令和服务配置实现。这不仅涉及启动服务端口以便能够接收音频输入,还涉及到指定所使用的各个模块的具体路径。 对于8kHz采样率的模型部署,有专门的指令用于初始化环境和设置必要的参数: ```bash cd FunASR/runtime nohup bash run_server.sh \ --download-model-dir /workspace/models \ --vad-dir damo/speech_fsmn_vad_zh-cn-8k-common-onnx \ --model-dir damo/speech_paraformer_asr_nat-zh-cn-8k-common-vocab8358-tensorflow1-onnx \ --punc-dir damo/punc_ct-transformer_cn-en-common-vocab471067-large-onnx \ --lm-dir damo/speech_ngram_lm_zh-cn-ai-wesp-fst-token8358 \ --itn-dir thuduj12/fst_itn_zh \ --hotword /workspace/models/hotwords.txt > log.txt 2>&1 & ``` 上述脚本通过`run_server.sh`来启动FunASR的服务[^3]。此过程会自动下载所需的模型文件至指定目录,并按照给定路径加载声学模型(`speech_paraformer_asr_nat`)、语音活动检测(VAD)模型(`speech_fsmn_vad`)、断句模型(punctuation model)以及其他辅助资源(如语言模型LM, 数字规范化ITN等),从而构建完整的语音识别流水线。 一旦服务成功启动,在客户端就可以发送请求来进行实时或批量模式下的语音转文字操作。通常情况下,客户端只需要准备好待处理的音频数据并通过HTTP API接口提交给服务器即可获得相应的文本结果。 #### 客户端测试示例 (Python) 下面是一个简单的 Python 脚本例子,展示了如何向已部署好的 FunASR 发送 POST 请求以获取识别后的文本输出: ```python import requests from pathlib import Path audio_file_path = 'path/to/your/audio.wav' url = "http://localhost:8097" with open(audio_file_path, 'rb') as f: files = {'file': ('audio.wav', f)} response = requests.post(url=url+'/asrapi/', files=files) print(response.json()) ``` 这段代码片段说明了怎样准备要上传的声音文件,并将其作为二进制流传递给本地运行着 FunASR 的 HTTP 接口 `/asrapi/` 。最终打印出来的 JSON 响应体里包含了转换得到的文字内容和其他可能的信息字段。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值