在线评论产品属性提取文献综述
薛晨杰 黄义兵 王召义 安徽商贸职业技术学院电子商务学院 基金项目:安徽省自然重点产学研项目:基于Word2Vec+K-means的在线评论产品属性提取技术研究(KJ2020A1075);安徽省自然重点课题:3C产品负面在线评论的线上服务补救研究——基于文本情感分析的方法(KJ2021A1481);企业技术需求(咨询服务)类课题:在线评论在数据化营销中的应用(2021ZDQ09);安徽商贸职业技术学院院级课题:基于word2vec技术的在线评论文本情感识别研究(2020KYZ06)。 摘要:电子商务竞争环境下,消费者愈加追求个性化需求的满足,获取产品信息的平台及渠道也愈加多样化。其在搜索及购买商品的时候,总会参考产品评论中的产品属性维度,找到真正关注的特征。因此,在线评论产品属性的提取不管是对消费者,还是商家、第三方购物平台来说都至关重要。通过对国内外关于在线评论及属性提取方面理论研究文献的收集、分类与分析,对这两者的概念、分类等进行阐述,总结在线评论的属性提取方法及属性提取的实际应用,以推动在线评论理论与实践的发展。 关键词:在线评论;属性提取;文献综述 一、前言 随着Web2.0时代的到来,信息的公开透明化、互动性越来越强。消费者在购物时甚至前后都习惯在各种购物平台、第三方点评网站及社交媒体平台上发布、浏览、分享商品的评论,同时用这些评论指导自己或他人的的购物决策。因此,在线评论的经济、商业价值不可小觑,能够用来判断其对消费者购物行为的影响、进行产品推荐及产品销量预测等,在线评论的研究在国内外一直是热点话题。 其中,在线评论的情感挖掘和情感分析是近年来学术界研究的重点。而与此同时,在线评论的数量日渐增加、产品属性的表现形式日渐多样化,分析评论的整体情感倾向已经无法准确判断消费群体的态度及满足购买者或商家的需求,因为个性化需求引导下的消费者更加重视某些产品属性。用户对于各类产品属性的评价直接或间接影响了产品的总体满意度,甚至决定了产品销量。 纵观国内外相关学者的研究,产品属性的相关研究逐渐增加,但是对中文评论中提取产品属性的研究远远未达到国外的规模。本文旨在系统收集和分析相关文献,对在线评论及属性提取的概念、分类等进行阐述,总结在线评论的属性提取方法及属性提取的实际应用,以推动在线评论理论与实践的发展。 二、在线评论及产品属性研究 在线评论出现的平台及渠道越来越广泛,形式也很多样,包括打分制、观点分享制,对其明确定位及分析也越来越有难度;同时,要研究属性提取,在线评论及产品属性的相关概述是基础。结合国内外研究,对在线评论的概念及分类进行分析,再对产品属性的分类进行明确。 (一)在线评论概述 1.在线评论概念 Park和Lee(2008)将在线评论定义为:消费者在网络购物平台上对产品的正面或者负面描述[1]。Mudambi和Schuff(2010)将在线评论定义:出现在网络购物平台上的用户赋予的产品评价信息[2]。夏火松,杨培和熊淦(2015)提出,在线评论是网络消费者在网络交流时,对获得的产品或服务的特征、使用体验给予的所有信息,是一种重要的在线口碑形式[3]。李金海(2016)则将在线评论简单定义为消费者发布的产品评论信息,可以被称为在线评论、在线消费者评论、在线产品评论等[4]。 综上所述,本文将在线评论定义为在第三方购物平台等各类公开的信息平台上,消费者对某一商品或服务的购买及使用体验进行文字、图片和视频形式的展示分享以及分值的评价。 2.在线评论分类 Hennig Thuraud等人(2004)根据在线评论的发布动机将其分为:情感的倾诉、信息的回应、完善消费体验、获得经济补偿、信任某一组织或个人及支持某一组织或个人六类[5]。夏火松,杨培和熊淦(2015)认为,在线评论在结构上可以分为只包含商品和服务的优点和缺点;除此之外同时包含用户自由评论的内容以及无固定格式的自由评论三类。再者,从形式上大致可以分为结构化良好的在线评论以及非结构化在线评论两种[3]。李金海(2016)从评价内容上对在线评论进行划分,他提出一般情况下一条较为完整的在线评论主要包括用户评分与评论文本两部分,当然这个根据评价发送的平台会有差异比如微博这一平台上就没有评分制,但是却有一些投票性评价。很多第三方购物平台上的评分基本定位为1-5五个层次,而文本则包括产品的优缺点。另外,很多平台上还会显示评论者的“ID”、评论时间及其他买家对该评价的追评等[4]。 综上所述,在线评论可以从多个角度来进行分类,包括发布动机、形式、结构、内容等,而本文主要是结合研究目标及Hu等人在2014年提出的观点,将用户发表的在线评论分为属性词与观点词两类:属性词主要是指产品具体的性能、功能等,评价词则是对产品发表的正面或负面评论。通过对属性词和观点词的提取和分析,可以判断顾客对产品及其具体属性的满意程度。 (二)在线评论挖掘 在线评论的商业价值在电子商务时代应用较为广泛,而与之相关的文本挖掘工作集中在几个方面:主观性语句的类型分析、产品属性的提取、情感词典的构建及挖掘系统的研究等,是电子商务领域的研究热点。当然,在英文领域的技术也相对较成熟,中文评论在语言表达方式、语言结构及词汇语法上都有差异。 伊利诺伊大学芝加哥分校的Liu Bing教授在在线评论的情感分析研究方面是先驱者。Liu等人(2005)开发了一个Opinion observer的系统,对评论中的产品属性进行分析,同时判断情感的极性[7]。Yi和Niblack(2005)开发了Web Fountain系统,结合语言技术平台判断极性词的情感倾向[8]。Gamon等人(2005)设计了Review Seer 系统,通过判断在线评论文本的正负面来进行情感分析[9]。李金海(2016)基于在线评论挖掘的网络购物混合推荐模型,挖掘出能够满足用户需求的信息、偏好,对用户推荐符合其需求的产品[4]。周立凤(2016)提出,评论挖掘的研究主要包含产品属性提取和情感分析两大模块,应该将文本中带有情感色彩的内容进行预处理,并将其解析为分类器可识别的数据,最后对结果进行归纳和推理[10]。 综上所述,在线评论的挖掘主要集中在技术层面的挖掘系统构建以及应用层面的情感分析,而这些都越来越离不开对产品评价中的商品属性进行提取,在线评论的文本挖掘对象主要是自然语言的无结构化数据,在产品设计中具有重要的应用前景。 (三)产品属性研究 在线评论中的文本挖掘工作,常常会面临着特征抽取以及对特征属性进行归类等问题的挑战,需要对产品属性的概念及分类进行定位。 1.产品属性概念 王永等人(2013)提出,产品属性就是能够描述产品性能或者组成产品的词语[11]。李欢(2017)指出,产品属性就是一些能够组成产品的名词或者名词短语[12]。别亚林(2018)认为,消费者在选择商品的时候比较重视和关注商品的几个特征,这几个特征表现是否良好会直接影响他们的购买决策,也就是商品属性[13]。 综上所述,产品属性是一些产品差异化特征的集合,反映不同产品固有特性的词语或短语,重要的产品属性直接影响着消费者的购买行为。 2.产品属性分类 Popescu和Etzioni(2005)提出,产品属性包括产品的使用性能、产品本身的差异化特征以及和产品相关的一些特性[14]。夏雨(2016)表示,消费者对一个商品的整体评价可能源自于他对这个商品较为关心的属性持正面或负面的态度,但是并不代表他对每部分属性都是这样的态度;同时,消费者在评价时可能对某个属性表示满意,对另外的属性又提出负面的看法,一分为二表达观点[15]。 结合国内外学者的研究[4][10][16],本文也将在线评论中的产品属性划分为显性和隐性两种。 (1)显性属性:是指直接被提及在商品评论中的,可以用比较明确的、固定的词语来进行表达商品的性能或功能,可以直接通过概念映射结果提取,比如衣服的“尺寸”、“样式”、“面料”等。目前关于产品属性提取多是针对显性属性,对隐性产品属性的提取技术研究还不成熟,会忽略掉大量有价值的在线评论信息。 (2)隐性属性:是指无法通过词语来识别的属性,但能根据评论内容推测的特征,比如描述衣服的语句“收到的时候天气已经热了,就穿了一次”、“穿了一天下来,感觉身上都被磨红了”,前者指“发货物流”太慢,后者则指“材质”不舒服。需要通过上下文,对文本进行语义分析来提取。 综上所述,在线评论中的产品属性可以被分为显性和隐性两种,隐性属性的提取应该成为以后的研究重点,更能适应电子商务环境下评论的多样化、个性化,真正实现评论挖掘的目的。 三、在线评论的产品属性提取方法 产品在线评论多是非结构化的数据,从其中提取出商品相关属性也就是消费者关注的信息非常重要[17]。在知网搜索关键词“在线评论 属性”,共342条结果。目前,对于产品属性的研究主要集中在提取算法的改进和应用上。对在线评论的产品属性提取方法进行文献整理和分析,从技术层面理清思路,为应用研究奠定基础。 在线评论的产品属性提取顾名思义就是利用计算机技术,从大量的用户评论中获取能够描述且用户比较关心的商品特征,对商品属性的描述是否全面以及对商品每个属性的描述是否细致决定了商品评论的质量[18][19][20][21],包括对评论进行预处理、筛选属性词、对属性词进行排序等工作。 (一)产品属性提取的技术分类 目前,主要的产品属性提取技术分为人工定义及机器学习两大类方法。 1.人工定义 在国外,最早的产品属性挖掘就是通过专家人工建立属性表而完成的,主要分为建立属性列表及构建领域本体两种。具体就是某个领域的专家,将产品的各个属性总结出来,较为准确,但是没有通用性,且耗费大量人力和时间,可移植性、动态性也不强,已经过时或者作为提取方法的一部分来使用。姚天昉等人(2008)通过人工定义的方法,来抽取中文汽车评论的产品特征[22]。 2.机器识别 人工挖掘的局限性使得机器自动识别成为当前产品属性提取的主流。正式的商品评价属性提取系统开始于关键规则的挖掘算法产生,主要是指利用自然语言处理技术,通过词性标注、句法分析、文本模式和句法依存分析等来自动提取产品属性。 (二)产品属性提取的机器自动识别方法 产品属性提取的机器自动识别方法从整体上又可以分为基于语言学和基于统计学两类方法,基于语言学的产品属性自动识别包括关联规则法、点互信息法和句法分析法,基于统计学的产品属性自动识别包括潜在语义分析法、最大熵模型法以及基于支持向量机的识别方法。 1.基于语言学的产品属性自动识别 Hu和Liu(2004)利用词性标注法将商品评论中的名词或名词短语进行提取,再利用关联规则得到高频的属性词集合,然后通过剪枝法确定属性频繁项集,最后利用临近词补充频率较低的属性词,以提高准确率[23]。同时,他们于2005年利用对训练集进行人工标注的方法,对测试集中的评论提取产品属性[24]。李实等人(2009)改进了他们的属性提取方法,针对中文的特点,提出了面向中文的客户评论挖掘方法[25]。Wei等人(2009)提出了一种基于词汇化隐马尔可夫模型产品属性提取算法[26]。李实(2009)采用中国科学院计算机所软件室编写的中文分词工具ICTCLAS对评论文本语料进行分词,基于关联规则Apriori算法找到频繁项集作为候选产品特征集合,平均查全率为77.8%,平均查准率为63.6%。Niklas和Iryna(2010)用词、词性、与情感词的依存关系等,采用条件随机场模型来提取产品属性,效果理想[27]。Wei等人(2010)利用关联规则提取频率较高的属性,再利用情感词进行过滤,从而提高了属性提取的准确性[28]。陆军等人(2012)在对评论有用性进行自动估价的研究中提出了挖掘产品热门属性的观点,属性信息提取的正确率达到 75%,通过人工标注热门属性,召回率可达到 90.03%,效果显著[29]。尹裴等(2013)通过改进关联规则算法,完成了针对中文产品评论的产品特征信息挖掘研究,并通过实验结果证明了该方法的有效性[30]。高会娟(2015)提出一种基于词性模板的产品属性挖掘方法,并将该方法针对复杂观点句加以改进[31]。Popescu和Etzioni(2015)将评论中出现较为频繁的名词及名词短语抽取出来,同时借助搜索引擎计算互信息值来对候选特征进行评估[32]。王辉等人(2014)提出了利用词法分析模板与属性词确定关系,进而使用增量迭代计算来获得属性词[33]。夏火松,杨培,熊淦(2015)提出一种基于评论长度的特征提取方法,提高了分类的准确率,并用实际案例进行验证。高梦(2015)利用Apriori算法提取出在线评论中用户较为关心的商品显性属性,再用语义分析提取出隐性属性,并计算各自的权重值[16]。 2.基于统计学的产品属性自动识别 Kim和Hovy(2004)以意见词为中心,将窗口中的名词或名词短语作为属性词存储[34]。Somprasertsri和Lalitrojwong(2008)标注出商品属性的集合,再利用属性词周围特定窗口中的词及其词性等语法特征,构造了一个极大熵的分类器,以判断抽取的名词或形容词是否为产品属性[35]。冯小翼(2011)考虑了候选产品属性词周边的词语和词性,以及属性词和意见词的关系等来判定属性词,同时运用最大熵模型进行训练,提升了产品属性提取的效果[36]。李金海(2016)通过本体的推理功能与SWRL语言对隐性产品属性进行提取[4]。于明朕和那日萨(2017)提出了一种基于互自扩展模式的半监督学习方法,对产品属性提取的F值可以达到78.97%,结果优于其他类似的提取算法[17]。李良强等人(2018)提出了一种结合词向量表征和K-means聚类相结合的半监督方法,进行用户评论属性的挖掘以及归类[21]。 综上所述,目前主要的产品属性提取技术分为人工定义及机器学习两大类方法,而机器学习方法又包括基于语言学和基于统计学两类方法。而与此同时,从整体来看,由于中文存在分词及词性标注不准确、句法复杂等困难,现今很多在中文评论提取产品属性的研究多是在英文文本的属性识别基础上加以改进,仍处在发展中,需要更多的关注。另外,由于语言的复杂性,很多方法的局限性在于难以从用户评论中提取出全部的句法依存关系,也有学者提出使用卷积神经网络进行产品特征词提取,这也是个值得思考的方向。 四、在线评论的产品属性提取应用 个性化消费越来越常见,每个消费者对商品的关注点也有很大的差异。因此,用户在浏览商品评论信息的时候,希望找到更全面的商品属性评价,在对商品进行评论的时候,则也是会分享自己较感兴趣的、更有体会的方面。用户持续性参与在线评论,表达内心情感,具有多方面的应用价值[37]。 能够降低自己在未来网络购物中的风险,帮助商家获取用户反馈、提升产品质量与服务水平,提升电子商务平台的用户黏性,增加用户对平台内容的信任情感。 (一)消费者角度 1.消费者在第三方购物平台、分享平台或各种社交媒体平台上浏览商品及较为关注的属性的评论、评价、测评,是为了降低自己在网购中的风险; 2.从在线评论中最快找到热门的属性评价,对产品各个特征的优缺点一目了然,可以帮助潜在消费者做出购买决策、节省时间; 3.消费者越来越希望从评论中找到符合自身个性化的产品属性描述,提升购物的体验。 (二)企业角度 1.从已经成交的商品评论中识别出商品属性,或者从第三方的社交媒体平台中搜索整理热点的属性评价,可以明确该类产品的优势及劣势属性,从而帮助企业针对客户需求来提高产品的质量、完善客户服务,尤其是帮助产品设计人员针对产品的某一个特征进行改进,从而提高产品的整体性能,及时修复潜在可能恶化的客户关系[31]。 2.商家从产品属性中提取出直接反应消费者需求的信息,可以获取顾客喜好和态度的变化,从而更好地为消费者提供个性化的商品和服务价值[38][39]。 (三)运营商角度 1.网络消费者的评论是可以作为一种反馈机制,影响着消费者对平台的信任程度。提升商品属性的提取效果,能够提高客户对电商网站的依赖性,增加电商网站的用户群和知名度,进而促进产品销售、扩大市场份额[31]。 2.第三方的运营商包括购物平台、社交媒体平台等,可以确认主流商品受欢迎的属性,从而制定广告、服务等营销模式,更具针对性。 五、结论及展望 本文对国内外关于在线评论及属性提取方面理论研究文献进行收集、分类与分析,对这两者的概念、分类等进行阐述,将在线评论的属性提取方法具体划分为人工定义及机器学习两类,又将机器学习方法划分为基于语言学和基于统计学两类。最后,从消费者、企业和运营商的角度来分析在线评论的产品属性提取应用价值。 从研究方向来看,当前基于在线评论的产品属性相关研究主要集中在理论探讨和实际应用上。理论方面主要集中在提取技术的改进,挖掘在线评论的特点、价值、信息源等,实践方面则聚焦在研究在线评论产品属性与消费者满意度的关系及评论的情感极性分析[40]。当然,在线评论的产品属性研究还有很长的路要走,也还有更多值得关注的地方:对产品属性进行提取的基础上,继续进行评论恩本的情感分析,解决评价对象的情感倾向性问题;在线评论越来越多样化、个性化,因此评论效用的作用应该给予更多关注,在提取产品属性时应考虑在线评论的效用值,反应出不同评论的差异,才能提高提取的科学性;通过网络宣传和销售的商品或服务每日剧增,一方面,最基本的分类比如标准产品和非标准产品,他们的商品属性就不一致,非标准产品的属性描述更加口语化、多样化,另一方面,在线评论的形式也日新月异,比如很多消费者现在也越来越习惯通过观看测评视频、直播销售时的弹幕、商品对比讲解视频等来获取商品的评价,这区别于传统的文本挖掘,也给产品属性的提取带来更多挑战。当然,只有跟随社会环境、市场需求的变迁开展更有深度的研究,才更有价值。 参考文献: [1]Park D. H., Lee J. e WOM Overload and Its Effect on Consumer Behavioral Intention Depending on Consumer Involvement[J]. Electronic Commerce Research and Applications,2008,7(4):386-398. [2]PMudambi S., Schuff D. What Makes a Helpful Online Review?A Study of Customer Reviews on Amazon.com[J].MIS Quarterly.2010, 34(1):185-200. [3]夏火松,杨培,熊淦.基于特征提取改进的在线评论有效性分类模型[J].情报学报,2015,34(05):493-500. [4]李金海.基于在线评论挖掘的网络购物混合推荐模型及策略研究[D].镇江:江苏大学,2016. [5]Hennig Thurau, Kevin P. Gwinner, Gianfranco Walshet al.Electronic word-of- mouth via consumer-opinion platforms: What motivates consumers to articulate themselves on the Internet? [J]. Journal of Internet Marketing,2004,18(1):38-52. [6]Hu N, Koh N S, Reddy S K. Ratings lead you to the product, reviews help you clinch it? The mediating role of online review sentiments on product sales[J]. Decision Support Systems, 2014,57:42-53. [7]Liu B, Hu M, Cheng J. Opinion observer: analyzing and comparing opinions on the web[C]Proceedings of the 14th international conference on World Wide Web. ACM,2015:342-351. [8]Yi J, Niblack W. Sentiment mining in Web Fountain[C]//Data Engineering,2005. ICDE 2005.Proceedings.21st International Conference on IEEE,2005:1073-1083. [9]Gamon M, Aue A, Corston-Oliver S, rt al. Pulse: Mining customer opinions from free text[M]// Advances in Intelligent Data Analysis VI. Springer Berlin Heidelberg, 2005:121-132. [10]周立凤.基于中文在线评论的产品特征提取与情感分析研究[D].南京:东南大学,2016. [11]王永,张勤,杨晓洁.中文网络评论中产品特征提取方法研究[J].现代图书情报技术, 2013(12):70-73. [12]李欢.基于深度学习的用户评论情感分析及其在产品优化设计中的应用[D].天津:河北工业大学,2017. [13]别亚林.基于产品属性的在线评论情感分析[D].武汉:中南民族大学,2018. [14]Popescu A, Etzioni O.Extracting product features and opinions from reviews// Proceedings of Human Language Technology Conference and Conference on Empirical Methods in Natural Language Processing. Stroudsburg: ACL,2005: 339– 346. [15]夏雨.在线评论中产品特征提取与意见挖掘研究[D].武汉:武汉理工大学,2016. [16]高梦.基于在线评论的产品选择方法研究[D].沈阳:东北大学,2015. [17]于明朕,那日萨.基于互自扩展模式的中文产品属性提取算法[J].计算机应用研究,2017,34(04):977-980. [18]金丽君.基于SVM 的搜索型商品评论有用性自动识别方法研究[D].哈尔滨:哈尔滨工业大学, 2013. [19]Quan C, Ren F. Unsupervised product feature extraction for feature-oriented opinion determination[J].Information Sciences,2014, 47(272):16-28. [20]黄磊.基于电商网站商品评论的商品属性提取及其情感的可视化表示[D].北京:北京邮电大学,2017. [21]李良强等人,基于在线评论词向量表征的产品属性提取[J].系统工程学报,2018,33(05):687-697. [22]姚天昉,程希文,徐飞玉等.文本意见挖掘综述[J].中文信息学报,2008,22(03):71- [23]Hu Minqing, Liu Bing, Mining and summarizing customer reviews[M],2004:168- [24]Liu Bing, Hu Minqing et al. Opinion observer: analyzing and comparing opinionson the Web[M],2005:342-351. [25]李实,叶强,李一军,Rob Law.中文网络客户评论的产品特征挖掘方法研究[J].管理科学学报,2009,12(02):142-152. [26]Jin Wei, Ho Hung Hay, Srihari Rohini K., Opinion Miner: A novel machine learning system for web opinion mining and extraction[M],2009:1154-1204. [27]李实.中文网络客户评论中的产品特征挖掘方法研究[D].哈尔滨:哈尔滨工业大学,2009. [27]Jakob Niklas, Gurevych Iryna, Extracting Opinion Targets in a Single-and-Cross- Domain Setting with Conditional Random Fields[M],2010. [28]Wei Chin Ping, Chen Yen Ming, Yang Chin Sheng et al.Understanding what concerns consumers:a semantic approach to product feature extraction from consumer reviews[J].Information Systems and e-Business Management,2010,8(2):149-167. [29]陆军,洪宇,陆剑江等.基于全局用户意图的评论自动股价方法研究[J].中文信息学报,2012,26(05):9-87. [30]尹裴,王洪伟,郭恺强.中文产品评论的“特征观点对”识别:基于领域本体的建模方法[J].系统工程,2013,31(01):68-77. [31]高会娟.产品属性挖掘及应用[D.北京:北方工业大学,2015. [32]A.M. Popescu, O. Etzioni. Extracting Product Features and Opinions from Reviews[C].In Proceeding of Human Language Technology Conference and Conference on Empirical Methods in Natural Language Processing,2005:339-346. [33]王辉,陈光.基于Bootstrapping的英文产品评论属性词抽取方法[J].山东大学学报(理学版),2014(12):23-29. [34]Kim S M, Hovy E. Determining the sentiment of opinions[C]Proceeding of the 20th international conference on Computational Linguistics(ICCL).Morristown,USA, [35]Somprasertsri G, Lalitrojwong P. A maximum entropy model for product feature extraction in online customer reviews[C]Proceedings of 2008 IEEE Conference on Cybernetics and Intelligent Systems.Chengdu, China,2008:575-580. [36]冯小翼.在线评论的产品属性提取与情感分析研究[D].武汉:华中科技大学,2011. [37]肖洁.基于文本挖掘的在线评论情感强度分析——以M公司的产品特征为例[D].广州:暨南大学,2018. [38]蓝天广.电子商务产品在线评论的细粒度情感强度分析[D].北京:北京邮电大学,2015. [39]于明联.在线评论中的产品属性提取及有用性识别研究[D].大连:大连理工大学,2016. [40]贺珂.基于关联规则的用户产品属性偏好变化挖掘[D].青岛:山东大学,2019. |