语言学特征进行可读性评估(Readability Assessment)

1 简介

本文根据2020年《Linguistic Features for Readability Assessment》翻译总结。从标题可以看出来是进行可读性评估(Readability Assessment)。

可读性评估(Readability Assessment),早期时,如Flesch (1948年),是提取简单的文本特征,像字符数量。Schwarm and Ostendorf (2005年)分析了更广泛的特征,包括out-of-vocabulary scores和语法特征(如average parse tree heigh)。

在本文,我们评估了语言学特征和深度学习模型的联合使用。我们将神经网络的单个数字输出作为一个特征,然后和语言学特征结合,最后输入到非神经网络模型(如SVM)中,SVM作为最后的分类器

总结如下:

  1. 语言学特征主要对小数据集下作用明显;
  2. 结合了语言学特征后,一般情况下并没有改善深度学习模型的效果。可能深度学习模型已经隐含的捕捉到了可读性评估所需的特征。

2 特征

2.1 传统特征

在这里插入图片描述

2.2 新颖的句法特征

在这里插入图片描述

3 模型

  1. SVMs, Linear Models, and Logistic Regression
  2. CNN
  3. Transformer
  4. HAN:分层注意力网络,将输入通过两个双向的RNN,每个RNN采用独立的注意力机制。其中一个注意力机制关注在每个句子内的不同单词,另一个注意力机制关注文档内的不同句子。

4 实验结果

Newsela 语料库的实验结果如下:可以看到结合了语言学后(SVM with HAN and linguistic features)并没有改善深度学习模型(HAN)的效果。

在这里插入图片描述

在Weebit语料库上的实验结果如下,可以看到结合了语言学后(SVM with transformer, Flesch features, and linguistic features)并没有改善深度学习模型(Transformer)的效果。

在这里插入图片描述

评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值