Python-人物词频统计-jieba库-三国演义

最新推荐文章于 2025-06-17 00:22:15 发布

StarLord007

最新推荐文章于 2025-06-17 00:22:15 发布

阅读量1.6w

点赞数 17

CC 4.0 BY-SA版权

分类专栏： Python

本文链接：https://blog.csdn.net/q1694222672/article/details/82014385

本文介绍了如何使用jieba库对三国演义TXT文件进行分词，通过遍历和处理，去除非人物词汇和重复名称，进行词频统计，重点关注主要人物如曹操。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

jieba库的函数只有一个，lcut()

首先下载三国演义 TXT文件，utf-8格式

这里写图片描述

进行分词

import jieba

def get_text():
    f = open('三国演义.txt','r',encoding='utf-8').read()
    words = jieba.lcut(f)
    return words

这里写图片描述

对于标点符号先不管它

思路：对于读出的列表，进行遍历，如果长度为1，说明是符号，略去，对于其他，进行词频统计，利用字典

import jieba

def get_text():
    f = open('三国演义.txt','r',encoding='utf-8').read()
    words = jieba.lcut(f

最低0.47元/天解锁文章

200万优质内容无限畅学

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

StarLord007

关注关注

17
点赞
踩
88

收藏

觉得还不错? 一键收藏
4
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Python利用jieba库实现中文词频统计：以三国演义为例

吉大秦少游

02-24

1万+

词频统计 #CalThreeKingdoms.py import jieba txt=open("threekingdoms.txt",'r',encoding="utf-8").read() words=jieba.lcut(txt) #jieba库函数 count={} #创建字典 for word in words: if len(word)==1: c...

三国演义人物词频统计 -- Python

weixin_44917717的博客

09-07

4333

三国演义人物词频统计 import jieba stopwords = {'将军', '却说', '丞相', '二人', '不可', '荆州', '不能', '如此', '商议', '如何', '主公', '军士', '左右', '军马', '引兵', '次日', '大喜', '天下', '东吴', '于是', '今日', '不敢', '魏兵', '陛下', ...

4 条评论您还未登录，请先登录后发表或查看评论

使用python统计《三国演义》人物词频，看看罗贯中笔下谁的出场次数最多

快乐星球

05-18

1万+

使用分词算法统计《三国演义》人物词频，看看谁是罗贯中心中最靓的仔。谁才是《三国演义》中出场次数最多的人。重新优化的其他案例的统计逻辑

【Python】jieba 库：中文分词工具使用介绍

最新发布

weixin_43510208的博客

06-17

456

自定义词典文件格式量子计算 10 n神经网络 8GPT-4动态加载与使用# 加载词典# 动态添加词语jieba.add_word("大语言模型", freq=100, tag='n')# 调整词频jieba.suggest_freq(("人工", "智能"), tune=True) # 强制切分领域适配优先：专业领域必须加载专用词典预处理优化预加载加速首次运行批量处理：开启并行模式新词发现：全模式+词频统计组合使用生产部署：考虑jieba_fast（C++加速版）提升性能。

【Python】三国演义词频统计，wordcloud实现

11-20

【Python】三国演义词频统计，wordcloud实现，内含有词频统计和实现词云的两份代码，还有三国演义的文本文档，感谢下载

【Python】三国演义词频统计

anglafu6265的博客

05-03

1350

import jiebatxt = open('C:/Users/eternal/Desktop/threekingdoms.txt','r',encoding='UTF-8').read()　　#提前修改txt文件编码格式utf-8excludes = {'将军','却说','荆州','二人','不可','不能','如此'}　　#错误的名字words = jieba.lcut(txt)...

【Python】文本词频统计。《三国演义》人物出场统计，排除更多无关词汇干扰，总结出场最多的10个人物，同时对返回结果进行图形展示。

Ll801003的博客

01-15

1425

【代码】【Python】文本词频统计。《三国演义》人物出场统计，排除更多无关词汇干扰，总结出场最多的10个人物，同时对返回结果进行图形展示。

python学习文本词频统计hamlet三国演义

04-10

总结来说，Python的`collections.Counter`和`nltk`库为词频统计提供了强大工具，可以帮助我们有效地分析文本数据。在这个例子中，我们学习了如何使用这些工具来统计"hamlet.txt"和"三国演义.txt"的词频，并进行了...

基于python的三国演义词频分析

03-08

在本项目中，我们探索了如何使用Python进行文本分析，特别是对《三国演义》这部经典文学作品的词频分析。这项任务旨在揭示文本中的高频词汇，从而深入了解作品的主题、人物和情节。以下是对这个项目及其相关知识点的...

python词频统计三国演义_三国演义词频统计

weixin_39617215的博客

12-06

1082

import jiebatxt=open(“threekingdoms2.txt”,“r”,encoding=“utf-8”).read()excludes = {‘将军’,‘却说’,‘荆州’,‘二人’,‘不可’,‘不能’,‘如此’}#错误的名字words = jieba.lcut(txt)#jieba库自动分词print(words)counts = {}for word in words:if...

jieba中文分词库-三国演义人名词频统计-Python

qq_45800977的博客

10-10

1595

【代码】jieba中文分词库-三国演义人名词频统计-Python。

python 三国演义人物出场词频统计

weixin_40840626的博客

11-19

2168

python 词频统计

三国演义人物词频分析.py

05-28

基于Python利用Jieba三方库精准分析《三国演义》中人物出场排行，也可单纯分析词频，从而分析《三国演义》的角色戏份和用语习惯。

python文本txt词频统计_python实例：三国演义TXT文本词频分析

weixin_39669265的博客

12-06

2004

0x00 前言找不到要写什么东西了！今天有个潭州大牛讲师说了个文本词频分析我基本上就照抄了一遍中间遇到一些小小的问题自我百度填坑补全了如下：效果演示0x01 准备环境及介绍python3.x版本随意安装jieba库pip install jiebajieba三种模式：1.精准模式 lcut函数，返回一个分词列表2.全模式3.搜索引擎模式词频：：的键值对IPO描述 imp...

Python:实现对三国演义词频分析，统计出出场率高的前15位

wanyangye的博客

07-15

9862

环境：Python 3.7开发工具：PyCharm第三方模块：jieba需求分析：1、读取文件内容。2、进行分词。3、对每个单词进行计数。4、对单词的统计值从高到低进行排序。代码实现：import jieba content = open('三国演义.txt', 'r', encoding='utf-8').read() words = jieba.lcut(content) # 分词 exc...

Python文本分析：《哈姆雷特》与《三国演义》词频统计

weixin_29050829的博客

04-25

1063

Counternltk库是自然语言处理工具包（Natural Language Toolkit）的缩写，是Python中用于处理人类语言数据的最著名和广泛使用的库之一。它提供了丰富的接口用于文本的分词、标注、解析，以及向量空间模型等。在文本预处理阶段，nltk能够帮助我们从原始文本中提取有用的结构和特征，从而为进一步的分析工作做好准备。nltk库的主要功能非常丰富，包括但不限于：分词（Tokenization）：将文本切分成单词或其他有意义的片段。

Python笔记七：经典例题大田字格，七段数码管绘制，三国演义词频统计及文本朗读

m0_61598337的博客

07-31

2695

利用python来进行大田字格，三国演义词频统计及文本朗读等简单程序的编写，适合新手小白尝试，本人也是新手小白一个，代码经过本人运行测试通过。

Python文本词频统计（对三国演义进行人物出场频率的统计）