python文本数据增强_中文语料的EDA数据增强工具。NLP数据增强。论文阅读笔记。...

weixin_39936310

于 2020-12-08 17:33:22 发布

阅读量1.1k

点赞数

文章标签： python文本数据增强

本文介绍了EDA（Easy Data Augmentation）在中文文本数据增强的应用，通过同义词替换、随机插入、随机交换和随机删除等方法增强语料库，提升文本分类任务的性能。在实验中，EDA在小数据集上表现出显著效果，平均准确率提升3.0%。此外，讨论了EDA的参数选择和潜在影响，如过度改变可能导致标签错误。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

EDA_NLP_for_Chinese

中文EDA实现。本工具是论文《EDA: Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks》的中文版本实现。

原作者虽给出了针对英文语料数据增强的代码实现，但不适合中文语料。我经过对原论文附上的代码的修改，现在推出这个适合中文语料的数据增强EDA的实现。

Usage

先将需要处理的语料按照下面的例子处理好成固定的格式：

0今天天气不错哦。

1今天天气不行啊！不能出去玩了。

0又是阳光明媚的一天！

即，标签+一个制表符\t+内容

命令使用例子：

$python code/augment.py --input=train.txt --output=train_augmented.txt --num_aug=16 --alpha=0.05

这里：

input参数：需要进行增强的语料文件

output参数：输出文件

num_aug参数：每一条语料将增强的个数

alpha参数：每一条语料中改动的词所占的比例

具体使用方法同英文语料情况。请参考eda_nlp。

Chinese stopwords

词表名

词表文件

中文停用词表

cn_stopwords.txt

哈工大停用词表

hit_stopwords.txt

百度停用词表

baidu_stopwords.txt

四川大学机器智能实验室停用词库

scu_stopwords.txt

Reference

原仓库：eda_nlp。感谢原作者的付出。Thanks to the author of the paper.

Acknowled

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。