前言
本文介绍使用爬虫技术抓取网页,及对获取的网页文本数据做后续分析的实战案例。我将以网友对《流浪地球》豆瓣影评文本的获取与分析全过程,作为演示案例。
文本挖掘的本质是,通过自然语言处理(Natural Language Processing,NLP)和分析方法,将文本转化为数据进行分析。因此,阅读本文,需要一定的知识基础,包括网页设计、自然语言处理方法,我会在文中适当补充。
➡ 1. 准备工作
分析工作之前,需要为软件配置工作环境,包括设置工作目录、调用需要的程序包等等。采集到的文本数据、各类词典、输出结果等等都会保存在工作目录中;外部程序包在首次使用前需要安装。
### 准备工作
# 设置工作目录
setwd('D:/The Wandering Earth')
# 加载所需程序包
library('rvest')
library('stringr')
library('jiebaRD')
library('jiebaR')
library('plyr')
library('rJava')
lib