R语言如何绘制词云图（17）

最新推荐文章于 2025-06-19 10:34:53 发布

心有灵犀啦

最新推荐文章于 2025-06-19 10:34:53 发布

阅读量4.7k

点赞数 2

CC 4.0 BY-SA版权

分类专栏： R语言绘图文章标签： r语言开发语言

本文链接：https://blog.csdn.net/qq_35294674/article/details/124669612

R语言绘图专栏收录该内容

33 篇文章

订阅专栏

1.什么是词云图？

“词云”由美国西北大学新闻学副教授、新媒体专业主任里奇·戈登（Rich Gordon）于2006年最先使用。戈登做过编辑、记者，曾担任迈阿密先驱报新媒体版的主任。他一直很关注网络内容发布的最新形式——即那些只有互联网可以采用而报纸、广播、电视等其它媒体都望尘莫及的传播方式。通常，这些最新的、最适合网络的传播方式，也是最好的传播方式。因此，“词云”就是通过形成“关键词云层”或“关键词渲染”，对文本中出现频率较高的“关键词”进行视觉上的突出。

词云图过滤掉大量的文本信息，使浏览者只要一眼扫过文本就可以领略文本的主旨。

本文我们就来讨论一下词云图是如何绘制的以及如何对其进行解读。

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-I4dIesXp-1652085433393)(D:\gitee\bioladder2\文档\知乎\词云图.assets\image-20220112142720326.png)]$

2.绘图前的数据准备

demo数据可以在https://www.bioladder.cn/shiny/zyp/bioladder2/demoData/wordcloud/wordcloud.zip下载。

本工具支持两种数据格式，一种是词频，另一种是一段话。

2.2.1 词频

必须要有列名，名称自定义。第一列为名称，第二列为名称对应的数量。

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-z05fEKNu-1652085433394)(D:\gitee\bioladder2\文档\知乎\词云图.assets\image-20220112141905114.png)]$

2.2.2 一段话

支持中文和英文，工具会自动将其拆分为词，并统计个数

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-UDLieVEK-1652085433395)(D:\gitee\bioladder2\文档\知乎\词云图.assets\image-20220112142007715.png)]$

3. R语言怎么画词云图

library(jiebaRD) 
library(jiebaR)                 
library(wordcloud2)

# 先将一段文字转成词频
text = "蛋白质组(Proteome)的概念最先由Marc Wilkins提出，指由一个基因组(genome)，或一个细胞、组织表达的所有蛋白质(Protein). 蛋白质组的概念与基因组的概念有许多差别，它随着组织、甚至环境状态的不同而改变. 在转录时，一个基因可以多种mRNA形式剪接，并且，同一蛋白可能以许多形式进行翻译后的修饰. 故一个蛋白质组不是一个基因组的直接产物，蛋白质组中蛋白质的数目有时可以超过基因组的数目. 蛋白质组学(Proteomics)处于早期“发育”状态，这个领域的专家否认它是单纯的方法学，就像基因组学一样，不是一个封闭的、概念化的稳定的知识体系，而是一个领域. 蛋白质组学集中于动态描述基因调节，对基因表达的蛋白质水平进行定量的测定，鉴定疾病、药物对生命过程的影响，以及解释基因表达调控的机制. 作为一门科学，蛋白质组研究并非从零开始，它是已有20多年历史的蛋白质(多肽)谱和基因产物图谱技术的一种延伸. 多肽图谱依靠双向电泳(Two-dimensional gel electrophoresis, 2-DE)和进一步的图象分析；而基因产物图谱依靠多种分离后的分析，如质谱技术、氨基酸组分分析等."

initialize = worker(stop_word="stopwords.txt")
# 停止词文件可以在这里下载https://www.bioladder.cn/shiny/zyp/bioladder2/demoData/wordcloud/stopwords.txt
df<-freq(initialize[text]) # 计算词频

# 绘图
wordcloud2(df, 
           size = 1,                  # 字体大小
           fontFamily = 'Segoe UI',   # 字体
           fontWeight = 'bold',       # 字体粗细
           color = 'random-dark',     # 字体颜色
           backgroundColor = "white", # 背景颜色
           minRotation = -pi/4,       # minRotation和maxRotation控制文本旋转角度的范围
           maxRotation = pi/4,
           rotateRatio = 0.4,         # 文本旋转的概率 0.4表示大约有40%的词发生了旋转
           shape = "circle"           # 轮廓形状
          )