理论与实战：一篇看懂Python词云

这可就有点麻烦了

于 2024-02-02 13:44:12 发布

阅读量1k

点赞数 25

CC 4.0 BY-SA版权

分类专栏：我都看了些什么文章标签： python c# 开发语言经验分享笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/rvdgdsva/article/details/135992080

本文详细介绍了如何使用Python的jieba库进行中文分词，结合wordcloud库实现基于频率的词云生成，包括停用词处理、自定义参数和图片背景。对比了基于文本和频率的方法，并提供了实际代码示例。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

理论与实战：一篇看懂Python词云

后宫王镇贴

前言

本文初编辑于2024年2月2日

该项目代码的仓库地址：https://github.com/A-Piece-Of-Maple/WordCloud

CSDN：https://blog.csdn.net/rvdgdsva

博客园：https://www.cnblogs.com/hassle

总结

截至2024.2.2，想要学习词云，能够找到的文章大部分都是【基于文本生成的词云（使用ganerate）】，而不是【基于频率生成的词云（使用generate_from_frequencies）】，而且功能各有残缺，有些API还没有解释清楚，到头来还是要自己总结一下各个零散帖子的精华做一篇新人指导

本程序中文可用，按照词语频率分布，Python实现，调用jieba中文分词库和wordcloud库，支持停用词，支持自定义词组，支持自定义图片背景，支持自定义文字对应图片颜色

实现原理

导入一篇txt文档，使用jieba库对文档中的文字进行分词，计算各个词汇出现的频率，使用wordcloud库按照词汇频率的大小生成词云。

注意，不是使用wordcloud.generate()，这个方法没有按照词汇频率的方式实现词云

停用词

在讲区别之前，来看看停用词是什么。下面是不调用停用词的词云，观感很差对吧。

实现方式区别

【基于文本生成词云】：txt文章->调用wordcloud.generate()，内部调用停用词->保存图片

这种方法观感很差，停用词也不是万能的。把没用的词剔除掉远不如把频率高的词提出来

【基于频率生成词云】：txt文章->分词->去空格空行->自己手动去除停用词->计算频率生成字典->调用wordcloud.generate_from_frequencies()->保存图

这种方法是理想方法

注意!wordcloud.generate()的参数是字符串，wordcloud.generate_from_frequencies()的参数是字典

你们会注意到，【基于频率生成词云】操作会麻烦一些，需要手动去除停用词。笨方法，但是有用。

看源码，对于stopword的操作，如果调用WordCloud()进行对象的创建，这个创建过程是没有办法处理字典元素的，很蠢

stopwords = set([i.lower

最低0.47元/天解锁文章

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。