R从网页抓取到文本分析全教程：影评的获取与分析

文宇肃然

于 2021-10-28 06:00:00 发布

阅读量1.6k

点赞数

CC 4.0 BY-SA版权

分类专栏： R语言实战应用案例精讲文章标签： r语言数据挖掘 python

本文链接：https://blog.csdn.net/wenyusuran/article/details/120757700

R语言实战应用案例精讲专栏收录该内容

69 篇文章 ¥19.90 ¥99.00

订阅专栏

本文通过R语言演示从网页抓取豆瓣《流浪地球》影评并进行文本分析的全过程，包括中文分词、文档矩阵、词频共现、文本聚类、主题建模和情感分析，揭示了文本挖掘的关键步骤和技术方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前言

本文介绍使用爬虫技术抓取网页，及对获取的网页文本数据做后续分析的实战案例。我将以网友对《流浪地球》豆瓣影评文本的获取与分析全过程，作为演示案例。

文本挖掘的本质是，通过自然语言处理（Natural Language Processing，NLP）和分析方法，将文本转化为数据进行分析。因此，阅读本文，需要一定的知识基础，包括网页设计、自然语言处理方法，我会在文中适当补充。

➡ 1. 准备工作

分析工作之前，需要为软件配置工作环境，包括设置工作目录、调用需要的程序包等等。采集到的文本数据、各类词典、输出结果等等都会保存在工作目录中；外部程序包在首次使用前需要安装。

### 准备工作# 设置工作目录setwd('D:/The Wandering Earth')# 加载所需程序包library('rvest')library('stringr')library('jiebaRD')library('jiebaR')library('plyr')library('rJava')lib

了解本专栏