Natural Language Toolkit,自然语言处理工具包,在NLP领域中,最常使用的一个Python库。
1、安装nltk
pip install -upgrade nltk
2、安装nltk_data
import nltk
nltk.download('punkt') # 英文且此、词根、切句等方法
nltk.download('stopwords') # 英文停用词库
我是用上面python代码下载相关数据集,一直报错
[nltk_data] Error loading punkt: <urlopen error [Errno 8] nodename nor
[nltk_data] servname provided, or not known>
[nltk_data] Error loading stopwords: <urlopen error [Errno 8] nodename
[nltk_data] nor servname provided, or not known>
最后去github手动下载,下载packages中的所有内容
下载后放到本地文件夹,我放在了/Users/sunwenjun/anaconda3/envs/python310/nltk_data/
,注意有些压缩包要解压。
from nltk.data import find
print(find('punkt')) # /Users/sunwenjun/anaconda3/envs/python310/nltk_data/punkt
print(find('