jieba库的函数只有一个,lcut()
首先下载三国演义 TXT文件,utf-8格式
进行分词
import jieba
def get_text():
f = open('三国演义.txt','r',encoding='utf-8').read()
words = jieba.lcut(f)
return words
对于标点符号先不管它
思路:对于读出的列表,进行遍历,如果长度为1,说明是符号,略去,对于其他,进行词频统计,利用字典
import jieba
def get_text():
f = open('三国演义.txt','r',encoding='utf-8').read()
words = jieba.lcut(f