_统计词频

该博客内容涉及对'walden.txt'文件的读取和处理。首先,通过f.readlines()读取文件,然后使用空格作为分隔符将文本转换为字符串列表。接着,利用Counter模块进行词频统计,输出前12000个最常见的词汇。博客主要探讨了文本分析和处理技术。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

f = open('C:\\Users\\Administrator\\Desktop\\walden.txt','r')
f_line = f.readlines()
str = " ".join(f_line)   #转为用分隔符“ ”连接的字符串
words = str.split()     #按某一字符串“ ”分割

from collections import Counter    #导入模块,计数
counter = Counter(words)
dictionary=dict(counter)
k=12000
res=counter.most_common(k)
print(res)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值