情感分析中的文档、短语和句子级分类方法解析
立即解锁
发布时间: 2025-09-10 01:23:25 阅读量: 11 订阅数: 20 AIGC 


文本机器学习:从理论到应用
# 情感分析中的文档、短语和句子级分类方法解析
## 1. 观点挖掘概述
观点挖掘存在一些变体,无法通过上述的槽填充任务完全涵盖。例如,句子级的槽填充需要在句子层面创建槽,并且可以通过额外的槽来表示句子是主观还是客观的信息。观点挖掘可被视为槽填充任务的简化,就像实体提取和关系挖掘也被视为槽填充任务的简化一样。不过,这只是对观点挖掘的一个非常笼统的看法。许多文档级的观点挖掘方法假定文档围绕单个实体展开,其他槽要么是隐含已知的,要么被认为不重要。在这种情况下,分类问题和情感分析任务之间的差异很小。
## 2. 文档级情感分类
### 2.1 基本概念
文档级情感分类是观点挖掘中最简单的场景,它在文档层面进行情感分类(如积极、消极或中性极性),并且分类是关于实体的“一般”方面。某些类型的文档,如亚马逊评论,通常围绕单个实体或产品,因此文档级方法在这些场景中尤为适用。以产品为中心的场景有一个有用的特点,即评论文本通常会附带评分,这些评分可用于监督学习。例如,亚马逊产品评论有一个五分制的评分,可转换为积极、消极或中性评分。
### 2.2 分类方法
这个问题可被视为一个现成的分类问题,可以使用现有的监督学习方法对文本的词袋表示进行处理。然而,纯词袋方法在文本分类中效果不佳,因为语言的微妙之处和观点词很重要。为了利用更丰富的自然语言信息,还可以使用基于序列的特征工程技巧(如doc2vec方法)。
### 2.3 特征使用
如果使用词袋表示,tf - idf表示通常是不够的,需要额外的特征。以下是文档级分类常用的特征:
1. **观点词典**:属于观点词典的词比不属于的词更重要。当一个词属于观点词典时,其方向信息(如积极/消极)也会作为特征纳入。
2. **含形容词或副词的专业短语提取**:这种类型的短语提取对观点分类特别有帮助,含形容词和副词的短语在观点分类中具有显著的区分能力。
3. **词的存在与频率**:在情感分析中,词的存在与否往往比其频率更重要,重复使用一个词有时可能不会增加其重要性,甚至可能降低。
4. **词的位置**:文档中词的位置对情感极性有重要影响。例如,评论的最后一句通常对总结评论者的感受有特殊意义,观点词在开头和中间的出现也有特定意义。
5. **否定**:否定在情感分析中起着非常重要的作用,与传统信息检索不同。例如,在主题分类中,“not”这个词对判断文档是否属于特定类别作用不大,但在表明是否喜欢政治时,否定词往往是一个强烈的指标。
6. **价变词**:价变词是任何能改变基础词价值的词,包括否定词、强化词、弱化词和非现实标记词。
7. **上下文和主题特征**:文档的上下文和主题对其解释可能起着重要作用。例如,同一句话在不同的背景下可能表达不同的情感。
8. **句法特征**:使用句法特征(如解析树)有助于确定观点词特定提及的方向,这是确定句子或文档极性的第一步。
在许多监督场景中,如产品评论,有标签(以评分形式)可用于学习,因此可以使用序数回归等技术。
### 2.4 无监督分类方法
当文档是产品评论时,标签数据通常很容易获得,但当文档是社交网络帖子、博客或讨论板上的内容时,标签数据的匮乏就成了一个主要问题。在这种情况下,可以采用主动学习技术,为用户提供适合标记文档的候选样本,以便用少量训练数据学习出健壮的模型。另一种方法是使用无监督学习,早期的观点挖掘就使用了无监督学习方法。
下面是无监督学习中短语挖掘的规则:
| 第一个词 | 第二个词 | 第三个词 |
| --- | --- | --- |
| JJ | NN 或 NNS | 任意 |
| RB, RBR, 或 RBS | JJ | 非 NN 或 NNS |
| JJ | JJ | 非 NN 或 NNS |
| NN 或 NNS | JJ | 非 NN 或 NNS |
| RB, RBR, 或 RBS | VB, VBD, VBN,
0
0
复制全文
相关推荐









