深度学习:详解word2vec + 实践操作(包括text2word)

本文介绍了Word2Vec算法,包括其CBOW和Skip-gram模型,解释了词向量编码的重要性,比较了独热编码与Word2Vec的优缺点,并讨论了Text2vec与Word2Vec的区别。文章还涉及实际应用,如文本分类、词义相似度计算和推荐系统。

一、白话word2vec

  1. Word2Vec是一种用于自然语言处理(NLP)的机器学习算法,由2012年谷歌提出的文本生成词向量模型,包括CBOW(continous bag of words)和Skip Gram。
      CBOW模型:是通过一个或多个单词的上下文来进行这个词语的预测
      Skip Gram模型:是通过一个或多个单词来进行上下文的预测。
    Word2Vec是一个预训练模型,已经训练好的。但也支持在不重新训练的情况下再继续添加新文本进行训练补充

  2. 为什么要对词进行编码(词向量化)?
      任何数学模型,其输入都需要是数值型的,因为计算机只能理解数字,词语是人类语言的抽象总结,计算机时无法理解的,而在自然语言处理中,我们面对的是文字,而文字是无法直接被数学模型所直接利用的。所以我们需要将文字进行编码,将每一个字符用一个向量进行表示,即把文本分散嵌入到另一个离散空间,,称作分布式表示,又称为词嵌入(word embedding)或词向量
      在word2vec出来之前,我们常用的主要是one hot encoding(独热编码)的方法。

  3. 自己理解:我觉得,我们使用word2vec将一个词语转化为向量,其实就是训练一个神经网络的过程,学习单词之间的位置关系,从而得到每个单词对应的向量表示。而CBOW 和 Skip-gram只是 是 Word2Vec 的两种不同训练方式,并通过它们得到向量矩阵。

  4. 关于具体的CBOW和Skip-gram内部是怎么样的,可以看https://cloud.tencent.com/developer/article/1164487?areaSource=102001.7&traceId=h5OTw1daZ2XfMP8SPzrXU。

  5. Word2Vec算法的核心思想是使用神经网络来学习每个词语的向量表示。在CBOW模型中,输入是上下文中的词语向量,再乘以输入权重矩阵,所得的向量求平均,作为隐藏层向量,再乘以输出权重矩阵,输出是目标词语的向量,在这个过程中不断最小化目标loss。在Skip-gram模型中,输入是目标词语的向量,输出是上下文中的词语向量。(输入层一般使用 one-hot将文字 -> 向量)。

  6. Word2vec预训练模型是通过对大量文本数据进行训练而得到的。在训练过程中,模型会学习单词之间的关系,以及它们在上下文中的出现方式。这些关系和出现方式被编码为向量,使得相似的单词在向量空间中距离更近。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值