word2vec 使用大语料库边读边训练

原创

于 2021-07-28 15:50:35 发布 · 957 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#python #word2vec #大语料

这篇博客探讨了如何使用Gensim的Word2Vec模型训练词向量。首先介绍了基本的训练方法，即先将语料处理成列表，然后训练模型。接着，针对大数据量的语料，展示了如何通过定义一个类并使用`__iter__`方法实现边读取CSV文件边训练，避免内存消耗。最后，尝试将`yield`直接放在函数内，但因生成器只能迭代一次，导致训练失败。结论是，对于Word2Vec模型，应使用类配合`__iter__`和`yield`来实现边读边训练。

使用gensim中word2vec训练词向量时，需要将语料处理成列表形式。

1 一般训练过程：

corpus=["我 是 中国人","北京 是 中国 首都","学生 向往 北京 大学"]
sentence=[i.split() for i in corpus]
from gensim.models.word2vec import Word2Vec
import multiprocessing
workers=multiprocessing.cpu_count()  #获取cpu核数，使用最大的核数，并行
dim=10 #word2vec向量维度
model = Word2Vec(sentence, workers=workers, vector_size=dim, sg=0