文章目录
一、新闻分类任务
1.1 中文数据集
从THUCNews中抽取了20万条新闻标题,已上传至github,文本长度在20到30之间。一共10个类别,每类2万条。数据以字为单位输入模型。
类别:财经、房产、股票、教育、科技、社会、时政、体育、游戏、娱乐。
数据集划分:
数据集 | 数据量 |
---|---|
训练集 | 18万 |
验证集 | 1万 |
测试集 | 1万 |
注意:更换自己的数据集:按照我数据集的格式来格式化你的中文数据集。
1.2 数据特点
训练集有18w条,测试集和验证集均为1w条,每条样本都是20-30个中文汉字。词表直接使用huggingface
上的中文词表即可。划分训练测试验证集用如下函数,返回train
列表有18w条样本数据,每条样本数据为一个tuple元组,比如train[0]
元组大小为4。