需求:对应政府工作报告等政策文件,如何直观理解?
体会直观的价值:生成词云&优化词云
基本思路:
步骤1:读取文件,分词整理
步骤2:设置并输出词云
步骤3:观察结果,优化迭代
这里因为是中文文章,所以需要对中文进行分词,这里就用到了jieba 库,然后因为wordcloud库处理的是,以空格分隔的字符串,所以在生成字符串时就需要用空格分隔开。
这里还可以限制词语显示的数量,只需要在生成wordcloud对象的时候,增加一个参数就可以
w = wordcloud.WordCloud( \
width = 1000, height = 700,\
background_color = "white", font_path = "msyh.ttc" \
max_words = 15 )
常规图形的代码:
import jieba
import wordcloud
f = open("新时代中国特色社会主义.txt", "r", encoding="utf-8")
t = f.read()
f.close()
ls = jieba.lcut(t)
txt = " ".join(ls)
w = wordcloud.WordCloud( \
width = 1000, height = 700,\
background_color = "white", font_path = "msyh.tt