多语言预训练模型通过在预训练阶段增加语言数量、采用MLM自监督训练等方式，使预训练模型具备了多语言和跨语言理解的能力

共43个文件

gitkeep：15个

txt：7个

md：6个

自然语言处理

语言模型

177 浏览量 2023-07-02 10:36:38 上传评论收藏 20.34MB ZIP 举报

资源推荐

资源详情

资源评论

收起资源包目录

cino-main.zip （43个子文件）

cino-main

.github

stale.yml 784B

.gitattributes 59B

data

YNAT

example.txt 698B

TNCC

with_space_separated

dev.txt 6.23MB

test.txt 6.14MB

train.txt 48.68MB

without_space_separated

dev.txt 5.61MB

test.txt 5.53MB

train.txt 43.87MB

LICENSE 11KB

examples

YNAT

README_EN.md 2KB

README.md 2KB

finetune

data

.gitkeep 0B

saved_models

.gitkeep 0B

model

.gitkeep 0B

cino-params.json 392B

ynat_finetune.py 7KB

log

.gitkeep 0B

WCM

zeroshot

wcm_zeroshot.py 5KB

data

.gitkeep 0B

model

.gitkeep 0B

cino-params.json 278B

log

.gitkeep 0B

README_EN.md 4KB

README.md 4KB

finetune

wcm_finetune.py 7KB

data

.gitkeep 0B

saved_models

.gitkeep 0B

model

.gitkeep 0B

cino-params.json 421B

log

.gitkeep 0B

TNCC

README_EN.md 2KB

README.md 2KB

finetune

data

.gitkeep 0B

tncc_finetune.py 7KB

saved_models

.gitkeep 0B

model

.gitkeep 0B

cino-params.json 462B

log

.gitkeep 0B

pics

banner.png 207KB

chinese_minority_model.png 585KB

qrcode.jpg 26KB

.gitignore 2KB

## 使用方法 [**中文说明**](README.md) | [**English**](README_EN.md) 用户可以基于已发布的上述预训练模型进行下游任务精调及zero-shot测试。 ### 测试环境 - numpy : 1.21.2 - python : 3.7.10 - pytorch : 1.7.1 - scikit-learn : 0.24.2 - transformers : 3.1.0 ### Finetune 本例中，我们使用 `CINO-large` 模型在维基分类任务中文数据上进行精调，相关步骤如下。假设， - `project-dir`：工作根目录，可按实际情况设置。 - `data-dir`：数据目录，本例为 `${project-dir}/data/`。 - `model_pretrain_dir`：预训练模型目录，本例为 `${project-dir}/model/`。 - `model_save_dir`：精调最优模型参数存储目录，本例为 `${project-dir}/saved_models/`。 - `best_model_save_name`：精调最优模型参数文件名，本例为 `best_cino.pth`。 #### 第一步：模型准备在[模型下载](https://github.com/ymcui/Chinese-Minority-PLM#模型下载)章节中，下载`CINO-large`模型，并解压至`${project-dir}/model/`。该目录下应包含`pytorch_model.bin`，`sentencepiece.bpe.model`，`config.json`，共计3个文件。 #### 第二步：数据准备参照[少数民族语言分类数据集](https://github.com/ymcui/Chinese-Minority-PLM#%E5%B0%91%E6%95%B0%E6%B0%91%E6%97%8F%E8%AF%AD%E8%A8%80%E5%88%86%E7%B1%BB%E6%95%B0%E6%8D%AE%E9%9B%86)章节中的说明，下载Wiki-Chinese-Minority（WCM）数据集中中文数据到`${data-dir}`，并保持原文件名。即`train.txt`、`dev.txt`和`test.txt`。 #### 第三步：运行训练命令 ```shell python wcm_finetune.py --params cino-params.json ``` `params`是一个JSON词典，在本例中的`cino-params.json`包含了精调相关参数，例如： ```json { "learning_rate":5e-6, "epoch":5, "gradient_acc":4, "batch_size":16, "max_len":512, "weight_decay":1e-4, "warmup_rate":0.1, "data_dir":"data/", "model_pretrain_dir":"model/", "model_save_dir":"saved_models/", "best_model_save_name":"best_cino.pth", "class_names":["艺术", "地理", "历史", "自然", "自然科学", "人物", "技术", "教育", "经济", "健康"] } ``` 运行完毕后，精调过程的日志信息和模型测试结果可在`${project-dir}/log/cino-ft.log`中查看。 ### Zero-Shot 本例中，我们使用 `CINO-large` 模型在维基分类任务少数民族语言数据上进行zero-shot测试，相关步骤如下。假设， - `project-dir`：工作根目录，可按实际情况设置。 - `data-dir`：数据目录，本例为 `${project-dir}/data/`。 - `model_pretrain_dir`：预训练模型目录，本例为 `${project-dir}/model/`。 - `model_finetune_params`：用于zero-shot的模型参数路径，本例为 `${project-dir}/model/best_cino.pth`。 #### 第一步：模型准备在[模型下载](https://github.com/ymcui/Chinese-Minority-PLM#模型下载)章节中，下载`CINO-large`模型，并解压至`${project-dir}/model/`。该目录下应包含`pytorch_model.bin`，`sentencepiece.bpe.model`，`config.json`，共计3个文件。将finetune阶段保存的最优模型参数文件放于`${project-dir}/model/`。 #### 第二步：数据准备参照[少数民族语言分类数据集](https://github.com/ymcui/Chinese-Minority-PLM#%E5%B0%91%E6%95%B0%E6%B0%91%E6%97%8F%E8%AF%AD%E8%A8%80%E5%88%86%E7%B1%BB%E6%95%B0%E6%8D%AE%E9%9B%86)章节中的说明，下载Wiki-Chinese-Minority（WCM）数据集中少数民族语言数据到`${data-dir}`，并保持原文件名。即`bo.txt`、`kk.txt`、`ko.txt`、`mn.txt`、`ug.txt`和`yue.txt`。 #### 第三步：运行训练命令 ```shell python wcm_zeroshot.py --params cino-params.json ``` `params`是一个JSON词典，在本例中的`cino-params.json`包含了zero-shot相关参数，例如： ```json { "batch_size":16, "max_len":512, "model_pretrain_dir":"model/", "model_finetune_params":"model/best_cino.pth", "data_dir":"data/", "class_names":["艺术", "地理", "历史", "自然", "自然科学", "人物", "技术", "教育", "经济", "健康"] } ``` 运行完毕后，zero-shot测试结果可在`${project-dir}/log/cino-zs.log`中查看。

评论收藏

内容反馈