python中文分词+词频统计

import jieba
from sklearn.feature_extraction.text import CountVectorizer
 
corpus = [
    "我喜欢使用Python编程语言",
    "Python是一种强大的编程语言",
    "Python编程语言被广泛使用"
]
 
# 使用分词进行中文分词
corpus_seg = []
for sentence in corpus:
    seg_list = jieba.cut(sentence)
    corpus_seg.append(" ".join(seg_list))
 
# 使用CountVectorizer进行词频统计
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(corpus_seg)
 
#并输出词汇表和词频矩阵
print(vectorizer.get_feature_names())
print(X.toarray())
 
#['python', '一种', '使用', '编程', '语言', '强大', '广泛', '喜欢', '被']
#[[1 0 1 1 1 0 0 1 0]
# [1 1 0 1 1 1 0 0 0]
# [1 0 0 1 1 0 1 0 1]]

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值