NLP —— 文本预处理

最新推荐文章于 2025-10-13 20:26:03 发布

原创最新推荐文章于 2025-10-13 20:26:03 发布 · 3.3k 阅读

21 ·

CC 4.0 BY-SA版权

文章标签：

#自然语言处理 #人工智能 #机器学习

深度学习与自然语言处理专栏收录该内容

15 篇文章

订阅专栏

一、分词简介

分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。我们知道，在英文的行文中，单词之间是以空格作为自然分界符的，而中文只是字、句和段能通过明显的分界符来简单划界，唯独词没有一个形式上的分界符, 分词过程就是找到这样分界符的过程。
举个栗子:

工信处女干事每月经过下属科室都要亲口交代24口交换机等技术性器件的安装工作
==>
[‘工信处’, ‘女干事’, ‘每月’, ‘经过’, ‘下属’, ‘科室’, ‘都’, ‘要’, ‘亲口’, ‘交代’, ‘24’, ‘口’, ‘交换机’, ‘等’, ‘技术性’, ‘器件’, ‘的’, ‘安装’, ‘工作’]

分词的作用：

词作为语言语义理解的最小单元，是人类理解文本语言的基础。因此也是 AI 解决 NLP 领域高阶任务，如自动问答、机器翻译、文本生成的重要基础环节。

（1）中英文分词的 3 个典型区别：

1）分词方式不同，中文更难

英文有天然的空格作为分隔符，但是中文没有。所以如何切分是一个难点，再加上中文里一词多意的情况非常多，导致很容易出现歧义。

2）英文单词有多种形态

英文单词存在丰富的变形变换。为了应对这些复杂的变换，英文NLP相比中文存在一些独特的处理步骤，我们称为词形还原（Lemmatization）和词干提取(Stemming)。中文则不需要
词性还原：does，done，doing，did 需要通过词性还原恢复成 do。

词干提取：cities，children，teeth 这些词，需要转换为 city，child，tooth”这些基本形态

3）中文分词需要考虑粒度问题

例如「中国科学技术大学」就有很多种分法：

中国科学技术大学
中国 \ 科学技术 \ 大学

中国 \ 科学 \ 技术 \ 大学
粒度越大，表达的意思就越准确，但是也会导致召回比较少。所以中文需要不同的场景和要求选择不同的粒度。这个在英文中是没有的。

（2）中文分词的3大难点

1）没有统一的标准

目前中文分词没有统一的标准，也没有公认的规范。不同的公司和组织各有各的方法和规则。

2）歧义词如何切分

例如「兵乓球拍卖完了」就有2种分词方式表达了2种不同的含义：

乒乓球 \ 拍卖 \ 完了乒乓 \ 球拍 \ 卖 \ 完了难点

3）新词的识别

信息爆炸的时代，三天两头就会冒出来一堆新词，如何快速的识别出这些新词是一大难点。比如当年「蓝瘦香菇」大火，就需要快速识别。

二、常用分词工具

1、jieba

jieba 的特性：

1）支持多种分词模式

精确模式
全模式
搜索引擎模式

2）支持中文繁体分词
3）支持用户自定义词典

（1）jieba 的安装:

pip install jieba

（2）精确模式分词

试图将句子最精确地切开，适合文本分析。

>>> import jieba
>>> content = "工信处女干事每月经过下属科室都要亲口交代24口交换机等技术性器件的安装工作"
>>> jieba.cut(content, cut_all=False)  # cut_all默认为False

# 将返回一个生成器对象 <generator object Tokenizer.cut at 0x7f065c19e318>

# 若需直接返回列表内容, 使用jieba.lcut即可
>>> jieba.lcut(content, cut_all=False) 
['工信处', '女干事', '每月', '经过', '下属', '科室', '都', '要', '亲口', '交代', '24', '口', '交换机', '等', '技术性', '器件', '的', '安装', '工作']

（3）全模式分词

把句子中所有的可以成词的词语都扫描出来，速度非常快，但是不能消除歧义。

>>> import jieba
>>> content = "工信处女干事每月经过下属科室都要亲口交代24口交换机等技术性器件的安装工作"
>>> jieba.cut(content, cut_all=True)  # cut_all默认为False

# 将返回一个生成器对象 <generator object Tokenizer.cut at 0x7f065c19e318>

# 若需直接返回列表内容, 使用jieba.lcut即可
>>> jieba.lcut(content, cut_all=True)
 ['工信处', '处女', '女干事', '干事', '每月', '月经', '经过', '下属', '科室', '都', '要', '亲口', '口交', '交代', '24', '口交', '交换', '交换机', '换机', '等', '技术', '技术性', '性器', '器件', '的', '安装', '安装工', '装工', '工作']

（4）搜索引擎模式分词

在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。

>>> import jieba
>>> content = "工信处女干事每月经过下属科室都要亲口交代24口交换机等技术性器件的安装工作"
>>> jieba.cut_for_search(content)

# 将返回一个生成器对象 <generator object Tokenizer.cut at 0x7f065c19e318>

# 若需直接返回列表内容, 使用jieba.lcut_for_search即可
>>> jieba.lcut_for_search(content) 
['工信处', '干事', '女干事', '每月', '经过', '下属', '科室', '都', '要', '亲口', '交代', '24', '口', '交换', '换机', '交换机', '等', '技术', '技术性', '器件', '的', '安装', '工作']

# 对'女干事', '交换机'等较长词汇都进行了再次分词. ```

（5）中文繁体分词

针对中国香港，台湾地区的繁体文本进行分词。

>>> import jieba
>>> content = "煩惱即是菩提，我暫且不提"
>>> jieba.lcut(content) 
['煩惱', '即', '是', '菩提', '，', '我', '暫且', '不', '提'] ```

（6）使用用户自定义词典

添加自定义词典后，jieba能够准确识别词典中出现的词汇，提升整体的识别准确率。

词典格式：每一行分三部分，词语、词频（可省略）、词性（可省略），用空格隔开，顺序不可颠倒。

jieba 词性对照表如下，将该词典存为 userdict.txt，方便之后加载使用。

有无使用自定义词典对比：
>>> import jieba
>>> jieba.lcut("八一双鹿更名为八一南昌篮球队！")
# 没有使用用户自定义词典前的结果:
>>> ['八', '一双', '鹿', '更名', '为', '八一', '南昌', '篮球队', '！']


>>> jieba.load_userdict("./userdict.txt")
# 使用了用户自定义词典后的结果: 
['八一双鹿', '更名', '为', '八一', '南昌', '篮球队', '！'] 

2、流行中英文分词工具 hanlp

hanlp 是中英文 NLP 处理工具包，基于 tensorflow2.0，使用在学术界和行业中推广最先进的深度学习技术。

（1）hanlp 的安装

# 使用pip进行安装
pip install hanlp

（2）使用 hanlp 进行中文分词:

>>> import hanlp
# 加载CTB_CONVSEG预训练模型进行分词任务
>>> tokenizer = hanlp.load('CTB6_CONVSEG')
>>> tokenizer("工信处女干事每月经过下属科室都要亲口交代24口交换机等技术性器件的安装工作")
['工信处', '女', '干事', '每', '月', '经过', '下', '属', '科室', '都', '要', '亲口', '交代', '24口', '交换机', '等', '技术性', '器件', '的', '安装', '工作']

（3）使用 hanlp 进行英文分词:

# 进行英文分词, 英文分词只需要使用规则即可
>>> tokenizer = hanlp.utils.rules.tokenize_english 
>>> tokenizer('Mr. Hankcs bought hankcs.com for 1.5 thousand dollars.')
['Mr.', 'Hankcs', 'bought', 'hankcs.com', 'for', '1.5', 'thousand', 'dollars', '.']

三、命名实体识别

命名实体：通常我们将人名、地名、机构名等专有名词统称命名实体.。如: 周杰伦、黑山县、孔子学院、24辊方钢矫直机。
命名实体识别(Named Entity Recognition，简称NER)就是识别出一段文本中可能存在的命名实体。
例如：

鲁迅, 浙江绍兴人, 五四新文化运动的重要参与者, 代表作朝花夕拾.

==>

鲁迅(人名) / 浙江绍兴(地名)人 / 五四新文化运动(专有名词) / 重要参与者 / 代表作 / 朝花夕拾(专有名词)

命名实体识别的作用：同词汇一样，命名实体也是人类理解文本的基础单元，因此也是 AI 解决 NLP 领域高阶任务的重要基础环节。

>>> import hanlp
# 加载中文命名实体识别的预训练模型MSRA_NER_BERT_BASE_ZH
>>> recognizer = hanlp.load(hanlp.pretrained.ner.MSRA_NER_BERT_BASE_ZH)
# 这里注意它的输入是对句子进行字符分割的列表, 因此在句子前加入了list()
# >>> list('上海华安工业（集团）公司董事长谭旭光和秘书张晚霞来到美 国纽约现代艺术博物馆参观。')
# ['上', '海', '华', '安', '工', '业', '（', '集', '团', '）', '公', '司', '董', '事', '长', '谭', '旭', '光', '和', '秘', '书', '张', '晚', '霞', '来', '到', '美', '国', '纽', '约', '现', '代', '艺', '术', '博', '物', '馆', '参', '观', '。'] 
>>> recognizer(list('上海华安工业（集团）公司董事长谭旭光和秘书张晚霞来到美国纽约现代艺术博物馆参观。'))
[('上海华安工业（集团）公司', 'NT', 0, 12), ('谭旭光', 'NR', 15, 18), ('张晚霞', 'NR', 21, 24), ('美国', 'NS', 26, 28), ('纽约现代艺术博物馆', 'NS', 28, 37)]

# 返回结果是一个装有n个元组的列表, 每个元组代表一个命名实体, 元组中的每一项分别代表具体的命名实体, 如: '上海华安工业（集团）公司'; 命名实体的类型, 如: 'NT'-机构名; 命名实体的开始索引和结束索引, 如: 0, 12.

使用 hanlp 进行英文命名实体识别:

>>> import hanlp
# 加载英文命名实体识别的预训练模型CONLL03_NER_BERT_BASE_UNCASED_EN
>>> recognizer = hanlp.load(hanlp.pretrained.ner.CONLL03_NER_BERT_BASE_UNCASED_EN))
# 这里注意它的输入是对句子进行分词后的结果, 是列表形式.
>>> recognizer(["President", "Obama", "is", "speaking", "at", "the", "White", "House"])
[('Obama', 'PER', 1, 2), ('White House', 'LOC', 6, 8)]
# 返回结果是一个装有n个元组的列表, 每个元组代表一个命名实体, 元组中的每一项分别代>表具体的命名实体, 如: 'Obama', 如: 'PER'-人名; 命名实体的开始索引和结束索引, 如: 1, 2.

四、词性标注

词性: 语言中对词的一种分类方法，以语法特征为主要依据、兼顾词汇意义对词进行划分的结果。常见的词性有14种，如名词、动词、形容词等。

词性标注(Part-Of-Speech tagging，简称POS)就是标注出一段文本中每个词汇的词性。

我爱自然语言处理
==>
我/rr, 爱/v, 自然语言/n, 处理/vn
rr: 人称代词
v: 动词
n: 名词
vn: 动名词

词性标注的作用：词性标注以分词为基础，是对文本语言的另一个角度的理解，因此也常常成为AI解决 NLP 领域高阶任务的重要基础环节。

1、使用 jieba 进行中文词性标注:

>>> import jieba.posseg as pseg
>>> pseg.lcut("我爱北京天安门") 
[pair('我', 'r'), pair('爱', 'v'), pair('北京', 'ns'), pair('天安门', 'ns')]
# 结果返回一个装有pair元组的列表, 每个pair元组中分别是词汇及其对应的词性, 具体词性含义请参照[附录: jieba词性对照表]()

2、使用 hanlp 进行中文词性标注:

>>> import hanlp
# 加载中文命名实体识别的预训练模型CTB5_POS_RNN_FASTTEXT_ZH
>>> tagger = hanlp.load(hanlp.pretrained.pos.CTB5_POS_RNN_FASTTEXT_ZH)
# 输入是分词结果列表
>>> tagger(['我', '的', '希望', '是', '希望', '和平'])
# 结果返回对应的词性
['PN', 'DEG', 'NN', 'VC', 'VV', 'NN']

3、使用 hanlp 进行英文词性标注:

>>> import hanlp
# 加载英文命名实体识别的预训练模型PTB_POS_RNN_FASTTEXT_EN
>>> tagger = hanlp.load(hanlp.pretrained.pos.PTB_POS_RNN_FASTTEXT_EN)
# 输入是分词结果列表
>>> tagger(['I', 'banked', '2', 'dollars', 'in', 'a', 'bank', '.'])
['PRP', 'VBD', 'CD', 'NNS', 'IN', 'DT', 'NN', '.']

五、文本张量表示

文本张量表示是将一段文本使用张量进行表示，其中一般将词汇为表示成向量，称作词向量，再由各个词向量按顺序组成矩阵形成文本表示。

[“人生”, “该”, “如何”, “起头”]
==>

[[1.32, 4,32, 0,32, 5.2],
[3.1, 5.43, 0.34, 3.2],
[3.21, 5.32, 2, 4.32],
[2.54, 7.32, 5.12, 9.54]]
（每个词对应矩阵中的一个向量）

文本张量表示的作用：

将文本表示成张量（矩阵）形式，能够使语言文本可以作为计算机处理程序的输入，进行接下来一系列的解析工作。

文本张量表示的方法

（1）词的独热表示：onehot （词之间是孤立的）

思想：假设词表大小为N，则每个单字表示为N维向量；每个单字只有1位为1，其他为0；茫茫0海中一个1
缺点：词之间是孤立的；维度太大

（2）词的分布式表示：（能描述词之间的语义关系）

1）基于矩阵的分布式表示
2）基于聚类的分布式表示
3）基于神经网络的分布表示，词嵌入 word embedding

将01表示改为浮点数表述；降维
word2vec 是用神经网络训练语言模型（NNLM）过程中得到的参数。

1、one-hot 词向量表示

又称独热编码，将每个词表示成具有 n 个元素的向量，这个词向量中只有一个元素是 1，其他元素都是 0，不同词汇元素为 0 的位置不同，其中n的大小是整个语料中不同词汇的总数。

举个栗子：

[“改变”, “要”, “如何”, “起手”]`
==>

[[1, 0, 0, 0],
[0, 1, 0, 0],
[0, 0, 1, 0],
[0, 0, 0, 1]]

onehot 编码实现：

# 导入用于对象保存与加载的joblib
from sklearn.externals import joblib
# 导入keras中的词汇映射器Tokenizer
from keras.preprocessing.text import Tokenizer
# 假定vocab为语料集所有不同词汇集合
vocab = {"周杰伦", "陈奕迅", "王力宏", "李宗盛", "吴亦凡", "鹿晗"}
# 实例化一个词汇映射器对象
t = Tokenizer(num_words=None, char_level=False)
# 使用映射器拟合现有文本数据
t.fit_on_texts(vocab)

for token in vocab:
	# 初始化全零矩阵
    zero_list = [0]*len(vocab)
    # 使用映射器转化现有文本数据, 每个词汇对应从1开始的自然数
    # 返回样式如: [[2]], 取出其中的数字需要使用[0][0]
    token_index = t.texts_to_sequences([token])[0][0] - 1
    zero_list[token_index] = 1
    print(token, "的one-hot编码为:", zero_list)

# 使用joblib工具保存映射器, 以便之后使用
tokenizer_path = "./Tokenizer"
joblib.dump(t, tokenizer_path)

输出效果:

鹿晗 的one-hot编码为: [1, 0, 0, 0, 0, 0]
王力宏 的one-hot编码为: [0, 1, 0, 0, 0, 0]
李宗盛 的one-hot编码为: [0, 0, 1, 0, 0, 0]
陈奕迅 的one-hot编码为: [0, 0, 0, 1, 0, 0]
周杰伦 的one-hot编码为: [0, 0, 0, 0, 1, 0]
吴亦凡 的one-hot编码为: [0, 0, 0, 0, 0, 1]

# 同时在当前目录生成Tokenizer文件, 以便之后使用

onehot 编码器的使用:

# 导入用于对象保存与加载的joblib
# from sklearn.externals import joblib
# 加载之前保存的Tokenizer, 实例化一个t对象
t = joblib.load(tokenizer_path)

# 编码token为"李宗盛"
token = "李宗盛"
# 使用t获得token_index
token_index = t.texts_to_sequences([token])[0][0] - 1
# 初始化一个zero_list
zero_list = [0]*len(vocab)
# 令zero_List的对应索引为1
zero_list[token_index] = 1
print(token, "的one-hot编码为:", zero_list) 

#李宗盛 的one-hot编码为: [1, 0, 0, 0, 0, 0]

one-hot 编码的优劣势：

优势：操作简单，容易理解.；
劣势：完全割裂了词与词之间的联系，而且在大语料集下，每个向量的长度过大，占据大量内存.

2、word2vec

word2vec 是一种流行的将词汇表示成向量的无监督训练方法，该过程将构建神经网络模型，将网络参数作为词汇的向量表示，它包含 CBOW 和 skipgram 两种训练模式。

举个简单例子，判断一个词的词性，是动词还是名词。用机器学习的思路，我们有一系列样本(x,y)，这里 x 是词语，y 是它们的词性，我们要构建 f(x)->y 的映射，但这里的数学模型 f（比如神经网络、SVM）只接受数值型输入，而 NLP 里的词语，是人类的抽象总结，是符号形式的（比如中文、英文、拉丁文等等），所以需要把他们转换成数值形式，或者说——嵌入到一个数学空间里，这种嵌入方式，就叫词嵌入（word embedding)，而 Word2vec，就是词嵌入（ word embedding) 的一种。
在 NLP 中，把 x 看做一个句子里的一个词语，y 是这个词语的上下文词语，那么这里的 f，便是 NLP 中经常出现的『语言模型』（language model），这个模型的目的，就是判断 (x,y) 这个样本，是否符合自然语言的法则，更通俗点说就是：词语 x 和词语 y 放在一起，是不是人话。
Word2vec 正是来源于这个思想，但它的最终目的不是要把 f 训练得多么完美，而是只关心模型训练完后的副产物——模型参数（这里特指神经网络的权重），并将这些参数作为输入 x 的某种向量化的表示，这个向量便叫做——词向量

（1）CBOW 模型

CBOW 就是根据某个词前面的 C 个词或者前后 C 个连续的词，来计算某个词出现的概率，即 CBOW 是用上下文预测这个词。

图中窗口大小为9, 使用前后4个词汇对目标词汇进行预测.

1）Input layer 输入层：将上下文每个词的 onehot 编码向量作为输入层的输入。一般的数学模型只接受数值型输入，这里上下文单词显然不能用 Word2vec，因为这是我们训练完模型的产物，现在我们想要的是 x 的一个原始输入形式，所以用 one hot 编码。假设单词向量空间的维度为V，即整个词库corpus大小为V，上下文单词窗口的大小为C。
2）假设最终词向量的维度大小为 N，则图中的权值共享矩阵为W，W的大小为 V ∗ N，并且初始化。
3）假设语料中有一句话"我爱你"。如果我们现在关注"爱"这个词，令C=2，则其上下文为"我",“你”。模型把"我" "你"的 onehot 形式作为输入。易知其大小为1 ∗ V。C 个 1*V 大小的向量分别跟同一个 V ∗ N 大小的权值共享矩阵W相乘，得到的是 C 个 1 ∗ N 大小的隐层 hidden layer。
4）C个 1 ∗ N 大小的 hidden layer 取平均，得到一个 1 ∗ N 大小的向量，即图中的 Hidden layer。
5）输出权重矩阵 W’ 为 N ∗ V，并进行相应的初始化工作。
6）将得到的 Hidden layer 向量 1 ∗ N 与 W’ 相乘，得到 1 ∗ V 的向量，此向量的每一维代表 corpus 中的一个单词，1 ∗ V 的向量经过 sigmoid 输出 0 到 1 的概率分布，概率中最大的 index 所代表的单词为预测出的中间词。
7）预测出的中间词将与我们真正的目标矩阵即词的 one-hot 编码矩阵进行损失的计算，然后更新网络参数W，W’ 完成一次模型迭代。
8）迭代多轮训练完毕后，输入层的每个词的onehot与矩阵W相乘得到的向量的就是我们想要的词向量。

具体计算过程为

word2vec 不关注模型

word2vec 可以分为两部分：模型与通过模型获得的词向量。
word2vec 的思路与自编码器(auto-encoder)的思路比较相似。都是先基于训练数据构建一个神经网络，当这个网络训练好后，我们并不会利用这个训练好的网络处理新任务，我们真正需要的是这个模型通过训练数据所学得的参数，例如隐层的权重矩阵——后面我们将会看到这些权重在 Word2Vec 中实际上就是我们试图去学习的 “word vectors”。基于训练数据建模的过程，我们给它一个名字叫“Fake Task”，意味着建模并不是我们最终的目的。

举例：

假设我们给定的训练语料只有一句话: Hope can set you free (愿你自由成长)，窗口大小为3，因此模型的第一个训练样本来自Hope can set，因为是CBOW模式，所以将使用Hope和set作为输入，can作为输出，在模型训练时， Hope，can，set等词汇都使用它们的one-hot编码. 如图所示: 每个one-hot编码的单词与各自的变换矩阵(即参数矩阵3x5, 这里的3是指最后得到的词向量维度)相乘之后再相加, 得到上下文表示矩阵(3x1).

接着, 将上下文表示矩阵与变换矩阵(参数矩阵5x3, 所有的变换矩阵共享参数)相乘, 得到5x1的结果矩阵, 它将与我们真正的目标矩阵即can的one-hot编码矩阵(5x1)进行损失的计算, 然后更新网络参数完成一次模型迭代。

最后窗口按序向后移动，重新更新参数，直到所有语料被遍历完成，得到最终的变换矩阵(3x5)，这个变换矩阵与每个词汇的 one-hot 编码(5x1)相乘，得到的 3x1 的矩阵就是该词汇的word2vec张量表示。

（2）Skip-Gram 模式

给定一段用于训练的文本语料，再选定某段长度(窗口)作为研究对象，使用目标词汇预测上下文词汇。

图中窗口大小为9, 使用目标词汇对前后四个词汇进行预测。

1）假设我们给定的训练语料只有一句话: Hope can set you free (愿你自由成长)，窗口大小为3，因此模型的第一个训练样本来自 Hope can set，因为是 skipgram 模式，所以将使用 can 作为输入，Hope 和 set 作为输出，在模型训练时， Hope，can，set 等词汇都使用它们的 one-hot 编码。如图所示：将 can 的 one-hot 编码与变换矩阵(即参数矩阵 3x5，这里的 3 是指最后得到的词向量维度)相乘, 得到目标词汇表示矩阵(3x1)。
2）接着，将目标词汇表示矩阵与多个变换矩阵(参数矩阵5x3)相乘, 得到多个5x1的结果矩阵, 它将与我们Hope和set对应的one-hot编码矩阵(5x1)进行损失的计算, 然后更新网络参数完成一次模型迭代.
3）最后窗口按序向后移动，重新更新参数，直到所有语料被遍历完成，得到最终的变换矩阵即参数矩阵(3x5)，这个变换矩阵与每个词汇的one-hot编码(5x1)相乘，得到的3x1的矩阵就是该词汇的word2vec张量表示。

使用 fasttext 工具实现 word2vec 的训练和使用

（1）第一步: 获取训练数据

# 在这里, 我们将研究英语维基百科的部分网页信息, 它的大小在300M左右
# 这些语料已经被准备好, 我们可以通过Matt Mahoney的网站下载.
# 首先创建一个存储数据的文件夹data
$ mkdir data
# 使用wget下载数据的zip压缩包, 它将存储在data目录中
$ wget -c http://mattmahoney.net/dc/enwik9.zip -P data
# 使用unzip解压, 如果你的服务器中还没有unzip命令, 请使用: yum install unzip -y
# 解压后在data目录下会出现enwik9的文件夹
$ unzip data/enwik9.zip -d data

查看原始数据：

$ head -10 data/enwik9

# 原始数据将输出很多包含XML/HTML格式的内容, 这些内容并不是我们需要的 <mediawiki xmlns="http://www.mediawiki.org/xml/export-0.3/"
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://www.mediawiki.org/xml/export-0.3/
http://www.mediawiki.org/xml/export-0.3.xsd" version="0.3"
xml:lang="en">   <siteinfo>
    <sitename>Wikipedia</sitename>
    <base>http://en.wikipedia.org/wiki/Main_Page</base>
    <generator>MediaWiki 1.6alpha</generator>
    <case>first-letter</case>
      <namespaces>
      <namespace key="-2">Media</namespace>
      <namespace key="-1">Special</namespace>
      <namespace key="0" />

原始数据处理:

# 使用wikifil.pl文件处理脚本来清除XML/HTML格式的内容
# 注: wikifil.pl文件需要自行下载
$ perl wikifil.pl data/enwik9 > data/fil9

wikifil.pl 下载链接

查看预处理后的数据:

# 查看前80个字符 
head -c 80 data/fil9

# 输出结果为由空格分割的单词   anarchism originated as a term of abuse first used against early working class

（2）训练词向量

# 代码运行在python解释器中
# 导入fasttext
>>> import fasttext
# 使用fasttext的train_unsupervised(无监督训练方法)进行词向量的训练
# 它的参数是数据集的持久化文件路径'data/fil9'
>>> model = fasttext.train_unsupervised('data/fil9')


# 有效训练词汇量为124M, 共218316个单词
Read 124M words
Number of words:  218316
Number of labels: 0
Progress: 100.0% words/sec/thread:   53996 lr:  0.000000 loss:  0.734999 ETA:   0h 0m

查看单词对应的词向量:

# 通过get_word_vector方法来获得指定词汇的词向量
>>> model.get_word_vector("the")

array([-0.03087516,  0.09221972,  0.17660329,  0.17308897, 
0.12863874,
        0.13912526, -0.09851588,  0.00739991,  0.37038437, -0.00845221,
        ...
       -0.21184735, -0.05048715, -0.34571868,  0.23765688,  0.23726143],
      dtype=float32)

（3）模型超参数设定

# 在训练词向量过程中, 我们可以设定很多常用超参数来调节我们的模型效果, 如:
# 无监督训练模式: 'skipgram' 或者 'cbow', 默认为'skipgram', 在实践中，skipgram模式在利用子词方面比cbow更好.
# 词嵌入维度dim: 默认为100, 但随着语料库的增大, 词嵌入的维度往往也要更大.
# 数据循环次数epoch: 默认为5, 但当你的数据集足够大, 可能不需要那么多次.
# 学习率lr: 默认为0.05, 根据经验, 建议选择[0.01，1]范围内.
# 使用的线程数thread: 默认为12个线程, 一般建议和你的cpu核数相同.

>>> model = fasttext.train_unsupervised('data/fil9', "cbow", dim=300, epoch=1, lr=0.1, thread=8)

Read 124M words
Number of words:  218316
Number of labels: 0
Progress: 100.0% words/sec/thread:   49523 lr:  0.000000 avg.loss:  1.777205 ETA:   0h 0m 0s

（4）模型效果检验

# 检查单词向量质量的一种简单方法就是查看其邻近单词, 通过我们主观来判断这些邻近单词是否与目标单词相关来粗略评定模型效果好坏.

# 查找"运动"的邻近单词, 我们可以发现"体育网", "运动汽车", "运动服"等. 
>>> model.get_nearest_neighbors('sports')

[(0.8414610624313354, 'sportsnet'), (0.8134572505950928, 'sport'), (0.8100415468215942, 'sportscars'), (0.8021156787872314, 'sportsground'), (0.7889881134033203, 'sportswomen'), (0.7863013744354248, 'sportsplex'), (0.7786710262298584, 'sporty'), (0.7696356177330017, 'sportscar'), (0.7619683146476746, 'sportswear'), (0.7600985765457153, 'sportin')]


# 查找"音乐"的邻近单词, 我们可以发现与音乐有关的词汇.
>>> model.get_nearest_neighbors('music')

[(0.8908010125160217, 'emusic'), (0.8464668393135071, 'musicmoz'), (0.8444250822067261, 'musics'), (0.8113634586334229, 'allmusic'), (0.8106718063354492, 'musices'), (0.8049437999725342, 'musicam'), (0.8004694581031799, 'musicom'), (0.7952923774719238, 'muchmusic'), (0.7852965593338013, 'musicweb'), (0.7767147421836853, 'musico')]

# 查找"小狗"的邻近单词, 我们可以发现与小狗有关的词汇.
>>> model.get_nearest_neighbors('dog')

[(0.8456876873970032, 'catdog'), (0.7480780482292175, 'dogcow'), (0.7289096117019653, 'sleddog'), (0.7269964218139648, 'hotdog'), (0.7114801406860352, 'sheepdog'), (0.6947550773620605, 'dogo'), (0.6897546648979187, 'bodog'), (0.6621081829071045, 'maddog'), (0.6605004072189331, 'dogs'), (0.6398137211799622, 'dogpile')]

（5）模型的保存与重加载

# 使用save_model保存模型， .bin 是二进制文件
>>> model.save_model("fil9.bin")

# 使用fasttext.load_model加载模型
>>> model = fasttext.load_model("fil9.bin")
>>> model.get_word_vector("the")

array([-0.03087516,  0.09221972,  0.17660329,  0.17308897,  0.12863874,
        0.13912526, -0.09851588,  0.00739991,  0.37038437, -0.00845221,
        ...
       -0.21184735, -0.05048715, -0.34571868,  0.23765688,  0.23726143],
      dtype=float32)

3、word embedding(词嵌入)

通过一定的方式将词汇映射到指定维度(一般是更高维度)的空间。
广义的word embedding包括所有密集词汇向量的表示方法，如之前学习的 word2vec，即可认为是word embedding的一种。
狭义的 word embedding 是指在神经网络中加入的 embedding 层，对整个网络进行训练的同时产生的 embedding 矩阵(embedding 层的参数)，这个 embedding 矩阵就是训练过程中所有输入词汇的向量表示组成的矩阵。