【Pytorch基础教程36】基于Ernie预训练模型和Bert的新闻分类

山顶夕景

已于 2023-02-19 19:54:53 修改

阅读量2.4k

点赞数 3

CC 4.0 BY-SA版权

分类专栏：自然语言处理深度学习文章标签： pytorch 预训练模型自然语言处理

于 2023-02-05 17:54:54 首次发布

89 篇文章 ¥59.90 ¥99.00

订阅专栏

148 篇文章

订阅专栏

该文介绍了使用BERT和ERNIE预训练模型进行中文新闻分类的任务。文中提供了一个包含10类新闻的中文数据集，数据预处理包括分词和填充。BERT模型结构主要由Transformer的编码器组成，而ERNIE在BERT基础上增加了知识整合。实验结果显示ERNIE在新闻分类任务上表现优于BERT。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、新闻分类任务

从THUCNews中抽取了20万条新闻标题，已上传至github，文本长度在20到30之间。一共10个类别，每类2万条。数据以字为单位输入模型。

类别：财经、房产、股票、教育、科技、社会、时政、体育、游戏、娱乐。

数据集划分：

注意：更换自己的数据集：按照我数据集的格式来格式化你的中文数据集。

训练集有18w条，测试集和验证集均为1w条，每条样本都是20-30个中文汉字。词表直接使用huggingface上的中文词表即可。划分训练测试验证集用如下函数，返回train列表有18w条样本数据，每条样本数据为一个tuple元组，比如train[0]元组大小为4。

了解本专栏