python文本数据增强_中文语料的EDA数据增强工具。NLP数据增强。论文阅读笔记。...

本文介绍了EDA(Easy Data Augmentation)在中文文本数据增强的应用,通过同义词替换、随机插入、随机交换和随机删除等方法增强语料库,提升文本分类任务的性能。在实验中,EDA在小数据集上表现出显著效果,平均准确率提升3.0%。此外,讨论了EDA的参数选择和潜在影响,如过度改变可能导致标签错误。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

EDA_NLP_for_Chinese

中文EDA实现。本工具是论文《EDA: Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks》的中文版本实现。

原作者虽给出了针对英文语料数据增强的代码实现,但不适合中文语料。我经过对原论文附上的代码的修改,现在推出这个适合中文语料的数据增强EDA的实现。

Usage

先将需要处理的语料按照下面的例子处理好成固定的格式:

0今天天气不错哦。

1今天天气不行啊!不能出去玩了。

0又是阳光明媚的一天!

即,标签+一个制表符\t+内容

命令使用例子:

$python code/augment.py --input=train.txt --output=train_augmented.txt --num_aug=16 --alpha=0.05

这里:

input参数:需要进行增强的语料文件

output参数:输出文件

num_aug参数:每一条语料将增强的个数

alpha参数:每一条语料中改动的词所占的比例

具体使用方法同英文语料情况。请参考eda_nlp。

Chinese stopwords

词表名

词表文件

中文停用词表

cn_stopwords.txt

哈工大停用词表

hit_stopwords.txt

百度停用词表

baidu_stopwords.txt

四川大学机器智能实验室停用词库

scu_stopwords.txt

Reference

原仓库:eda_nlp。感谢原作者的付出。Thanks to the author of the paper.

Acknowled

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值