BoW - Bag of Words - 词袋模型

前言

BoW,全称Bag of Words,中文名称为词袋模型,最初被用在NLP的文本分类任务中,将文档表示成特征向量。

步骤

  1. 提取出文本独特的word,然后给每个word赋予一个one hot vector(只有一个维度为1,其他为0)即建立了一个词库。
  2. 根据词库,得到每个句子对应的特征向量。

优点

简单,方便。
新增一个词也比较方便。

不足

只关注了词出现的次数,并没有考虑其顺序。
当词库较大时,特征向量比较稀疏。

示例

文档1:John likes to watch movies. Mary likes too.
文档2:John also likes to watch football games.

Vocabulary = {“John”: 1, “likes”: 2,“to”: 3, “watch”: 4, “movies”: 5,“also”: 6, “football”: 7, “games”: 8,“Mary”: 9, “too”: 10}

特征向量:
文档1: [1, 2, 1, 1, 1, 0, 0, 0, 1, 1]
文档2: [1, 1,1, 1, 0, 1, 1, 1, 0, 0]

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

NSJim

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值