word2vec 使用大语料库 边读边训练

这篇博客探讨了如何使用Gensim的Word2Vec模型训练词向量。首先介绍了基本的训练方法,即先将语料处理成列表,然后训练模型。接着,针对大数据量的语料,展示了如何通过定义一个类并使用`__iter__`方法实现边读取CSV文件边训练,避免内存消耗。最后,尝试将`yield`直接放在函数内,但因生成器只能迭代一次,导致训练失败。结论是,对于Word2Vec模型,应使用类配合`__iter__`和`yield`来实现边读边训练。

使用gensim中word2vec训练词向量时,需要将语料处理成列表形式。

1 一般训练过程:

corpus=["我 是 中国人","北京 是 中国 首都","学生 向往 北京 大学"]
sentence=[i.split() for i in corpus]
from gensim.models.word2vec import Word2Vec
import multiprocessing
workers=multiprocessing.cpu_count()  #获取cpu核数,使用最大的核数,并行
dim=10 #word2vec向量维度
model = Word2Vec(sentence, workers=workers, vector_size=dim, sg=0
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值