1、问题
给出中文文本text如下:
text =‘大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。’
对这一段中文文字进行分词,并输出每个分词的词性。
2、代码
# 导库
import jieba
import jieba.posseg as psg
from collections import Counter
# 文本
text = '大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。'
# 分词
# 精确分词
cut1=jieba.lcut(text)
print('精确分词:',cut1)
# 全模式
cut2=jieba.lcut(text,cut_all=True)
print('精确分词:',cut2)
# 搜索引擎模式
cut3=jieba.lcut_for_search(text)
print('精确分词:',cut3)
# 划分词性
words = psg.cut(text)
for word,flag in words:
print(word,flag)
3、结果
【out】:
分词
精确分词: ['大', '数据', '是', '需要', '新', '处理', '模式', '才能', '具有', '更强', '的', '决策', '力', '、', '洞察', '发现', '力', '和', '流程', '优化', '能力', '的', '海量', '、', '高', '增长率', '和', '多样化', '的', '信息', '资产', '。']
精确分词: ['大数', '数据', '是', '需要', '新', '处理', '模式', '才能', '具有', '更', '强', '的', '决策', '力', '、', '洞察', '发现', '力', '和', '流程', '优