翻译自外网:https://machinelearningmastery.com/deep-learning-bag-of-words-model-sentiment-analysis/
教程概述:
1.电影评论集
2.数据准备
3.词包表示法
4.情感分析模型
1.电影评论集
数据集介绍:该数据集是由1000正1000负的IMDB网站的电影评论组成
下载地址:Movie Review Polarity Dataset(review_polarity.tar.gz, 3MB)
2.数据准备
在这一节中,我们将完成3件事:
1、将数据分离成训练和测试集。
2、加载和清除数据
3、定义词库
分离成训练和测试集:我们将使用最后100个正面评论和最后100个负面评论作为测试集(100个评论),剩下的1800个评论作为训练集。即:90%训练集,10%测试集。评论编号000至899是训练数据,评论编号从900起是测试数据。
数据的装载和清理clean_doc():文本数据已经相当干净,所以不需要太多的准备。我们将使用以下方法准备数据:
1、以空格分割数据
2、从单词中删除所有标点符号
3、删除所有非纯字母组成的单词。
4、删除所有已知的停用词。
5、删除所有长度<= 1的字符。
定义词库:我们可以开发一个词汇表作为计数器,遍历所有评论,将评论中的词汇加入词库中。