使用gensim中word2vec训练词向量时,需要将语料处理成列表形式。
1 一般训练过程:
corpus=["我 是 中国人","北京 是 中国 首都","学生 向往 北京 大学"]
sentence=[i.split() for i in corpus]
from gensim.models.word2vec import Word2Vec
import multiprocessing
workers=multiprocessing.cpu_count() #获取cpu核数,使用最大的核数,并行
dim=10 #word2vec向量维度
model = Word2Vec(sentence, workers=workers, vector_size=dim, sg=0

这篇博客探讨了如何使用Gensim的Word2Vec模型训练词向量。首先介绍了基本的训练方法,即先将语料处理成列表,然后训练模型。接着,针对大数据量的语料,展示了如何通过定义一个类并使用`__iter__`方法实现边读取CSV文件边训练,避免内存消耗。最后,尝试将`yield`直接放在函数内,但因生成器只能迭代一次,导致训练失败。结论是,对于Word2Vec模型,应使用类配合`__iter__`和`yield`来实现边读边训练。
最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



