目录
64.Predicting the “helpfulness” of online consumer reviews. (Journal of Business Research)
61.Huang, G. H., Chang, C. T., Bilgihan, A., & Okumus, F. (2020). Helpful or harmful? A double-edged sword of emoticons in online review helpfulness. (Tourism Management)
这篇文章也是研究表情符号对评论有用性的影响的,可以回顾一下之前关于表情符号对评论有用性影响的文章,第40篇文章中用了调查问卷的方式研究了单义表情符号和多义表情符号对评论有用性的影响,第5篇文章也研究了表情符号与顾客的认知风格以及评论的写作风格之间的交互作用,研究表情符号作用的文章目前来看采用的多是调查问卷的方式进行研究的。其实不难判断,在线购物网站中很少有人会去使用表情符号进行评论,即使有表情符号的评论可能效果也不会很理想,因此多是采用调查问卷的形式来进行分析。
文章也是从写作风格出发的,将评论写作风格分为了叙述型写作和列表型写作,表情符号的积极程度以及表情符号是否出现与评论写作风格产生交互作用,共同影响评论的有用性。文章基于cognitive tunning theory来进行分析,认为人们在阅读积极消息时采取的是启发式阅读,而在阅读消极信息时采取的是分析式阅读,外部感情线索也会影响评论的阅读方式,因此表情符号可以作为一个外部线索来影响评论的阅读方式,而阅读方式的不同对不同评论的写作风格的有用性影响也不同。
文章指出在叙述性且感情积极的评论中添加积极的表情符号能够提高评论有用性,在列表型写作风格且感情消极的评论中添加消极的表情符号能够提高评论有用性,但是从图中可以看出来消极评论中其实影响并不是很大,积极评论中有一定的影响,并且文章的数字和表格的数字并不统一,但我不知道为什么这篇文章可以发在这种级别的期刊上。
文章还做了一个大数据实验,拿了4000多条评论数据进行分析,但是没有详细说明特征工程是怎么处理的,也没有给出表格。
总结一下,好像有道理,但是我感觉是rubbish,但是行文思路看起来却又是很牛的样子。
62.Automatically assessing review helpfulness. In Proceedings of the 2006 Conference on empirical methods in natural language processing
这是一篇比较早的从机器学习的角度去研究在线评论有用性的文章,是2006年发表的,但是里面提到的许多特征都是后来研究中的重要特征,文章采用了亚马逊的电子产品来进行建模分析。
首先要确定文章的因变量,文章采用了有用性投票率来进行回归分析,这个指标的确定为后来的研究奠定了基础;在自变量上,文章从多个维度进行分析,首先是结构维度(评论长度、句子数、平均句子长度、换行符和加粗字体),词汇维度(基于tf-idf的词袋模型和N-gram模型),句法维度(各种词性的词语的占比),语义维度(与产品特征有关的情感词、通用的情感词语),超文本维度(星级、星级不一致性)。在模型上,文章采用了SVR模型并采取了RBF核函数,然后进行回归分析。
文章在模型的评价上采用了网页上的排名和预测的排名结果进行相关性分析来验证模型的好坏,后面的文章中进行模型评价时多采用的是MSE或者AUC系列的指标。
由于评价指标的不同,对文章的结果很难去进行评价,同时由于机器学习的限制性,对于特征的现实意义也很难去解释,但是这篇文章所发掘的特征却是相当有用的。
63.Effects of user-provided photos on hotel review helpfulness: An analytical approach with deep leaning. (International Journal of Hospitality Management)
大多数文章对于评论数据中的图片数据都没有进行处理,而是直接提取了图片数量来表示图片对评论有用性的影响,这就默认每张图片都是有用的,并且图片中包含了消费者想要知道的产品特点,但这个是不合理的。这篇文章是从多源异构数据视角下去分析在线评论有用性的,之前的文章中也有几篇也进行了类似方向的研究。对于多源异构数据的处理,这类型的文章都是分别通过不同的网络来对异构数据进行处理,然后将异构数据转换成具有相似结构的压缩数据,最终进行合并,并且进行最终模型的学习训练。可以参考第11篇文章(该文章是通过识别评论图片的标签,然后将标签转化为词向量,最终进行训练的),第45篇文章(该文章采用BERT模型和VGG-16模型来进行异构数据的处理,并自创了损失函数来进行最终的模型训练)。
这篇文章对文本数据采用了RNN网络来进行学习,对于图像则采用了ResNet来进行学习,在学习之前文章做了数据的清洗、样本的配对以及一系列描述性统计的工作,当特征全部被学习出来之后就进行特征的融合。作为一个深度学习的小白,我觉得论文在框架这一块写的还是不够清晰。
基线模型上,文章利用TF-IDF提取词语特征,同时用图片向量的平均值来表示图片的质心,并且用特征选择的方法分别选择重要性前1000的特征放在一起,然后用DT/LR/SVM这三个基本的机器学习模型来进行拟合。
文章先选取了没有照片的评论来进行模型训练,deep1表示只有评论文本的评论。准确率有0.67,然后deep2表示训练的模型在有图片的评论上进行拟合,结果准确率只有0.62,文章的解释是当消费者写评论放图片时,就倾向