文本数据分析
1 文本数据分析介绍
文本数据分析的作用:
文本数据分析能够有效帮助我们理解数据语料,快速检查出语料可能存在的问题, 并指导之后模型训练过程中一些超参数的选择。
常用的几种文本数据分析方法:
- 标签数量分布
- 句子长度分布
- 词频统计与关键词词云
2 数据集说明
我们将基于真实的中文酒店评论语料来讲解常用的几种文本数据分析方法.
中文酒店评论语料:
属于二分类的中文情感分析语料。
其中train.tsv代表训练集,dev.tsv代表验证集,二者数据样式相同。
train.tsv数据样式:
sentence label
早餐不好,服务不到位,晚餐无西餐,早餐晚餐相同,房间条件不好,餐厅不分吸烟区