TAG标签 | 网站地图 现代商业杂志社-国内统一刊号:CN11-5392/F,国际标准刊号:ISSN1673-5889,全国中文流通经济类核心期刊
热门搜索:跨境电商 构建 存在的问题及对策 大学生 互联网 财务管理 信息化 目录 大数据 现代商业杂志

商业流通

当前位置:主页 > 文章导读 > 商业流通 >

基于文本挖掘的网络直播评论情感分析

2019-11-20 19:53 来源:www.xdsyzzs.com 发布:现代商业 阅读:

陈彩蓉 窦倩 江苏大学管理学院

摘要:近年来,网络直播行业呈现一片火热景象,但蓬勃发展的背后暗藏着内容监管与盈利亏空的行业桎梏,网络直播环境亟待规范。基于上述背景,文章旨在提出一种针对直播用户评论的情感分析方法,进而对直播评论低俗化这一现象提出针对网络直播的规范化治理建议,以期营造一个文明清朗的网络直播环境。

关键词:文本挖掘;网络直播;情感分析

中图分类号:F724.6F274    文献识别码:A   文章编号:1673-5889201930-0000-02

一、研究背景

伴随着互联网技术高速发展、多媒体形式逐渐丰富,网络直播这一交互性极强的新型媒介形式应运而生,并呈现出蓬勃发展的态势。据中国互联网信息中心统计,截止201712月,网络直播用户规模达到4.22亿,其中游戏直播用户规模达到2.24亿,较去年年底增加7750万,占网民总体的29%。网络直播热这一现象既是互联网井喷式发展背景下媒体创新的表现,受众的需求也是推动直播火热的一个重要因素。

网络直播堪称是“眼球经济”,再加上近年来直播行业竞争白热化,不少主播为迅速博取关注以收获更高收益,游走于法律的边缘,触发了暴力、色情、教唆犯罪等问题,玷污了社会道德。引发这一系列问题的原因不仅仅是网络直播的准入门槛低,主播素质良莠不齐,归根结底是因为网络直播的监管机制尚不健全,缺乏有效的直播行业相关制度,再加上网络本身的虚拟性和隐匿性,增强了直播行业的监管难度,可见我国对于网络直播平台的监管体系仍存在着明显纰漏,仅依靠文件规定、制度约束无法从根本上解决直播乱象,需要更加实际具体的监管策略。

201710月,习近平总书记在十九大报告中提到,要加强互联网内容建设,建立网络综合治理体系,营造清朗的网络空间。2018314日,正值两会,全国人大代表孔涛接受《法制日报》记者采访时也提到,针对种种直播乱象,应该利用大数据、人工智能、云计算等先进技术提升管理能力。

二、文献综述

对于网络直播,目前较少有学者针对直播过程中的弹幕评论进行情感分析,而在电影票房预测、股市预测、事件情感分析等多个领域,很多学者基于文本的情感分析进行了有益的探索。覃国蓉等人针对旅游领域构建了旅游领域的情感词典,展开对旅游领域网络评论的情感分析研究并构建了一个实用的旅游网络评论监控系统。朱琳琳等人对国内外有关网络情感分析的相关研究及技术进行分析,最后从意见概览和趋势预测两个方面总结了当前网络评论情感分析在电子商务、新媒体、酒店服务业等具体领域的应用研究。涂小琴针对影视领域在豆瓣网站中抓取影评并进行数据处理,通过PLN机器学习对观众情感倾向进行分析,了解观众观影的喜好心理。

还有一些学者探讨了网络直播平台的现状及发展并提出了相关规范化治理建议。张旻通过梳理和分析现今大热的“网红经济”下催生的网络直播行业的运行特征与传播特点,提出针对网络直播平台的监管问题及其四点应对策略。曾一昕,何帆以信息的传递过程为切入点分析网络直播热潮现状,从平台分类、主播特点、传播特点、观众目的四个方面深度剖析直播行业,从而进一步提出网络直播的规范治理策略。许向东通过对我国网络直播发展现状和特点的分析,深究当前直播乱象及其治理困境的根源,进而提出构建网络直播治理体系的应对措施。

综上所述,文本挖掘已然成为大数据时代一个重要的应用领域,作为一个新兴的文本挖掘处理模式,文本的情感分析受到国内外的广泛重视。网络评论情感分析更是成为近年来网络文本挖掘研究的一个重要领域。而对于近几年迅速火热起来的网络直播,学术界还缺乏较为深入的探究。故本研究针对网络直播用户评论,通过建立网络直播领域的情感词典,再利用Python语言进行文本情感分析,进而对直播评论低俗化这一现象提出相关的规范化治理建议,实现对网络直播平台评论的正确引导与控制。

三、数据采集

对于网络直播评论信息的采集,本研究选取了国内直播行业具有代表性的直播平台之一——斗鱼。2018年上半年游戏直播类APP排行中,斗鱼直播活跃人数达到2023万人,相当于排名第二与第三活跃人数的总和。网络直播平台有它蓬勃发展的一面,但在快速发展的过程中存在的诸多问题也应得到重视。在运行方面,斗鱼直播平台价值导向偏低、网站同质化现象、隐私权版权等问题日益严重。因此,斗鱼直播平台的用户评论数据具有很强的代表性,适合于本研究数据分析的需要。

直播评论的采集主要利用socket模块针对斗鱼直播平台设计爬虫程序,利用该算法实时抓取直播间的弹幕评论并导入Excel文件中,爬取了20个直播间共30000条数据,采集数据的维度选择了昵称、ID、评论内容和房间号等四个维度。

采集的用户评论中,会包含一部分的无用评论,这部分评论仅包含空格、符号、表情等,无法真实反应用户的具体情感,因此在实际分析过程中,会将这部分评论去掉。对于无效评论的处理主要利用Excel的自定义排序、筛选等功能进行批量删除,初步整理出用户评论语料库,共包含22000条用户评论数据。

四、基于词典与机器学习组合的情感值计算方法

    本研究所利用的情感分析方法是基于词典与机器学习组合的情感分析方法。

(一)情感词典的构建

由于本算法的准确率依赖于情感词典,因此情感词典的完备性和准确性就成为本算法成功的关键。本研究以网络直播评论文本作为研究对象,从国内已经相对成熟的相关文本情感词典的基础上展开情感词典的扩展,是情感词典构建的主要过程。因此,为了获得理想的情感词典,本研究基于现有中文情感词典——知网的情感词典、台湾大学整理的中文情感词NTUSD、《学生褒贬义词典》,去除重复词后,整合成应用于本研究的基础情感词典。

(二)训练情感分析语料库

情感分析语料库构建的过程主要利用Excel工具和Python语言完成。利用Excel工具进行语料的预处理,分成积极消极语料后再通过Python语言的算法进行语料库的训练。

本次分析选用SnowNLP算法,对经过数据清洗的22000条用户评论数据进行人工标记,分别写入积极与消极语料中,为了模型更全面和准确,我们将整理好的情感词典一并加入,共同作为训练集,载入情感分析模块中进行训练,构建网络直播评论情感分析语料库。

五、网络直播情感分析

(一)分析评论的情感倾向

情感分析就是分析一句话说得是主观还是客观,分析这句话所表达的是积极还是消极的情绪。本研究利用Python中的SnowNLP库对评论文本进行处理,将网络直播评论的情感进行量化,得到具体的情感数值。

    对抓取的直播评论利用SnowNLP中的sentiment函数进行情感分类,读取每条评论并依次进行情感值分析,返回值为所分析评论的情绪为积极或消极的概率,其区间为[0,1],当分值大于0.5时代表句子的情感极性偏向于积极,反之,情感极性偏向于消极。当然,越偏向两边情感越偏激。因此,利用函数返回值作为网络直播评论文本的情感值。

(二)负面评论的再分析

根据以上情感倾向分析的结果,将负面评论整理出来,用PythonJieba模块对其进行分词处理和词频计算,统计出负面评论中的高频词汇并生成词云,整理并补充到已构建的模型中,以跟随网络用语持续发展变化的脚步,不断丰富和完善网络直播领域的情感词典。由此来提高词性判断的精确率,进而增强网络直播评论情感倾向分析的准确性。

    在词云中,词频是通过字体大小进行分布的。整体看来,网络直播环境中存在着大范围“灰色地带”,给网络空间带来了极大污染,而直播平台本身为了追求利益也对此熟视无睹。因此,网络直播内容亟待规范,对网络直播环境的整治刻不容缓。

(三)负面评论情感分析的准确性比较

在本文的研究中为了明确显示情感极性,将积极情感显示为1,消极情感显示为-1。同时,为了验证该情感分析算法的准确度,本研究随机选取1000条评论作为测试集,人工地对测试集中的评论进行情感极性判断,将判断的结果与分析结果进行对比,通过情感分析得出的结果准确度可达到90.55%

    接着再对测试集中的评论进行词频、词云分析,将负面评论中的高频词反馈并补充到语料库中,再次进行情感分析,此时准确率提升至94.03%

六、网络直播平台规范化治理建议

通过本文以上分析可知,我国对网络直播这一新兴行业的监管存在着明显“漏洞”,网络直播评论中各种肮脏、污秽的词汇几近泛滥,亟需更加规范和行之有效的管理办法对网络直播环境进行整治,对此,本文提出以下几点规范化治理建议:

第一,健全相关法律法规。网络直播行业方兴未艾,亟需一套规范、完整的法律体系加以约束。可制定网络直播持证上岗制度,从根源上对直播用户进行筛选,提高直播用户的准入门槛。此外,若直播过程中主播出现色情、暴力等违法行为,平台负责人也应追究相应责任。

第二,建立主播信息管理系统。将各个主播信息纳入管理网,建立主播信息管理系统。采取与信用管理平台类似的方法对直播用户进行评级,对严重违反秩序或触及道德低点的主播采取限播或取消直播权利等措施,确保不良主播远离直播平台。

第三,建立网络直播评论动态预警系统。做好对网络直播中不良信息的监管,形成有效的监管体系,才能最大程度地控制不良信息泛滥。可基于本文所提出的直播评论分析方法构建网络直播评论情感倾向分级机制,并以此为基础搭建网络直播评论预警系统,实时监管网络直播过程中出现的用户评论,对低俗用语及时拦截,并推送预警信息,必要时可对其采取禁言或封号等措施。

总而言之,网络直播是互联网快速发展的新兴产物,在对其监管时要采取多样化的手段,只有在各方的共同努力下,网络直播行业才能走向良性健康发展的道路。

参考文献:

[1]隗辉,严语,白玉洁.网络直播泛娱乐化乱象解读与有序治理[J].湖北社会科学,2018(02).

[2]覃国蓉,叶志成,庄槟豪,蔡哲聪.旅游网络评论情感分析方法研究及系统实现[J].深圳信息职业技术学院学报,2015,13(03).

[3]朱琳琳,徐健.网络评论情感分析关键技术及应用研究[J].情报理论与实践,2017,40(01).

[4]涂小琴.基于Python爬虫的电影评论情感倾向性分析[J].现代计算机(专业版),2017(35).

[5]张旻.热闹的“网红”:网络直播平台发展中的问题及对策[J].中国记者,2016(05).

[6]曾一昕,何帆.我国网络直播行业的特点分析与规范治理[J].图书馆学研究,2017(06).

[7]许向东.我国网络直播的发展现状、治理困境及应对策略[J].暨南学报(哲学社会科学版),2018,40(03).

相关内容
发表评论