目录
python文本分析工具NLTK
NLP(自然语言处理)领域种最常用的一个python库,NLP是将自然语言(文本)转化为计算机程序更容易理解的形式,
在python环境下运行以下代码,选择需要的语料库进行下载
nltk就像是一个骨架,我们要让他运动起来,就必须有血有肉,这些血肉就是下面的这些模型等
import nltk
nltk.download()
弹出以下窗口,Collection中有各种的教程、例子等,corpora为各种语料库 ,全部下载完约1-2G左右,models为各种模型,All Packages为前面的所有包
下面是brown(布朗)库的调用和基本情况查看
from nltk.corpus import brown
print(brown.cotegories())#查看语料库包含的类别
print('共有{}个句子'.format(len(brown.sents())))
print('共有{}个单词'.format(len(brown.words())))
典型的文本与处理流程为
- 对原始数据进行分词
- 词形归一化
- 词性标注
- 去除停用词
- 得到处理好的单词列表
分词
默认使用punkt分词模型,在上述方法中下载此模型才可使用
nltk.word_tokenize('需要分词的句子')