基于LDA模型和语义共现网络的预制菜网络舆情分析
李航1 赵蕾1 杨培文2 牛霄2 刘梦莹1 (1.聊城大学商学院,山东 聊城 252059;2.聊城大学数学科学学院,山东 聊城252059) 摘要:近年来,随着预制菜产业的迅速发展,越来越多的预制菜产品融入了我们的日常生活,并逐渐成为公众讨论的焦点。在社交平台这一主要观点发表场所,预制菜企业必须准确把握舆论的焦点,以便能够提供更加精准的产品和服务。通过运用LDA算法提炼主题,并结合PMI和Gephi构建语义共现网络图谱,分析了预制菜网络舆论的焦点及引发大众负面情绪的原因。研究结果显示,预制菜的舆论焦点主要集中于三个领域:“使用便利”、“大众担忧”和“校园舆论”。而引发大众负面情绪的原因则主要集中在食品安全、添加剂使用和大众知情权等方面。本研究为企业从舆情分析的角度把握预制菜的舆论焦点、改进产品,并更好地服务市场提供了参考依据。 关键词:预制菜;LDA主题模型;PMI算法;语义共现网络 一、引言 2023年中央一号文件提出要推动农产品加工业优化升级,推进农产品生产和鲜切包装等初加工设施建设。从宏观层面来看,预制菜产业的发展不仅促进了消费模式创新和相关产业链升级,还有助于创造就业、推动经济的可持续发展。从微观层面看,预制菜产业的兴起促进了食品加工技术的创新和食品安全标准的提升,同时为消费者提供了快速、方便的饮食方案。预制菜是适应社会发展的产物,也是食品行业的新增长点所在,拥有广阔的发展前景[1]。据《艾媒咨询2021年中国预制菜行业分析报告》数据显示,2021年,中国预制菜行业规模达到3459亿元,同比增长19.8%;2022年,预制菜市场规模增5992.2亿元。预计到2026年,我国预制菜市场规模将突破万亿元,高达1.07万亿。预制菜已然成为消费市场和资本市场的双风口,预制菜市场火爆。互联网的普及和社交媒体的发展,使得关于预制菜的信息能够迅速传播。消费者可以通过网络平台分享自己的使用体验,发表对预制菜的看法,从而形成网络舆情,如何精准的把握预制菜市场的舆情成为一个重要问题。为了提供针对性的产品和服务,预制菜生产企业需要准确把握消费者对预制菜的情绪,识别消费者的消费需求[2],然而,由于在线评论中个人语言表达中存在或多或少的差异,直接识别舆情主题存在困难,企业目前面临着对消费者情绪和需求把握度不高等问题。 目前我国对于预制菜方面的研究还处在初级阶段。刘威[3]等人进行了预制菜供应链的阶段演进与推进路径研究,提出了要从供应链融合化,全流程标准化,全环节数字化等方面推进预制菜供应链的具体路径以促进预制菜的发展。赵靓琳[4]等人对目前我国预制菜行业的现状进行了研究,提出批发型预制菜和零售型预制菜蓬勃发展,但因国家标准缺失、菜品分散化与企业规模化经营冲突、口味代替性不足等问题行业发展受阻。安俊文[5]等人在赵靓琳[4]的的研究基础之上,分析了我国预制菜行业发展的影响因素,并从B端和C端协同发展等角度剖析了我国预制菜行业的发展趋势。这些研究为预制菜的发展提供了丰富的理论基础和实践基础。然而,尽管目前对预制菜已经进行了一定的研究,但这些研究主要集中于对预制菜产业链发展、预制菜行业趋势预测等方面,对大众在线评论的舆情分析研究较少。文章通过对大众评价的挖掘和分析,对市场舆情进行补充。 近年来,抖音、快手、小红书、微博等APP的用户规模不断扩大,以及网络爬虫等多种数据分析技术的飞速发展,为研究分析大众对于预制菜的态度提供了强大的推动力。图1所展示的是从小红书和微博平台上爬取到的大众对预制菜的在线评论词云图。通过这张图可以观察到大众对预制菜的评价运用到了“防腐剂”“口味”“方便”“安全”等词语。在这种语言环境中,很难观察出关键词的分类以及词语之间的关联也很难挖掘出更深层次的决策信息。 图1 预制菜网络评论高频词词云图 利用文本分类方法对在线评论聚类分析可以为企业获取生产的相关决策信息[6]。主题分类模型是文本分类的一个子方法,即从概念主题角度理解词项语义。LDA(Latent Dirichlet Allocation)主题模型作为一种强大的文本分析工具,它能够挖掘文本数据中的潜在主题结构,为研究和理解文本内容提供了关键的洞察力。马玉洋[7]基于淘宝和京东两大电商平台,利用LDA主题模型,通过情感分析和主题分析提取在线评论的主题词,了解了消费者对国货护肤品的评价。在预制菜的整个发展过程中,大众针对预制菜所发表的观点和做出的评论,对于预制菜产业的进步起着至关重要的作用。故而,对在线评论展开分析,有助于预制菜企业更为客观、真实地去感受消费者的倾向以及市场的需求,从而为生产厂家进行各项决策提供具有实际参考价值的信息。 本文将小红书和微博评论视作数据源,爬取相关用户在平台上针对产品所发表的在线评论,运用主题聚类方法,构建起LDA模型,研究大众对于预制菜的评论和关注焦点。为进一步分析引起大众负面情绪的原因,文章在LDA主题模型的基础上,创造性地采用了PMI算法与语义网络相结合的方式,以更进一步地通过网络评论挖掘引起消费者负面情绪的因素。以求能够更加全面、深入地了解预制菜在网络舆情中的表现和影响,为相关方面的决策提供更加准确、丰富的信息支持。 二、研究方法及数据来源 1.研究方法
本文采用LDA主题模型与语义网络相结合的方法,首先用LDA主题模型对网络评论进行主题聚类,然后用语义网络挖掘引起舆论发面情绪的原因,研究思路如图2所示。 (1)LDA主题分析
LDA是一种用于分析语言文本和语料库等离散数据集合的主题模型,它基于文档-主题-词语三层的贝叶斯概率结构[8]。LDA主题模型不仅可用于提取大众发表的网络评论中的关键信息,还可以高效地找到短文本的主题特征[9]。故本文采用LDA主题模型来对小红书和新浪微博的网络评论进行主题划分,并通过计算主题贡献率来分析预制菜发展过程中的网络舆论特点。 步骤1进行主题聚类。在主题聚类部分,本文采用Python中的gensim库来调用LDA模型来实现对预制菜网络评论数据的主题聚类。其原理如公式(1)[10]所示。 图 2 LDA概率图模型 步骤2 进行模型评估。在模型评估部分,本文选择使用困惑度和一致性指标来评估主体效能和选择合理的主题数。困惑度检验是Blei在《Latent Dirichlet Allocation》中提出的使用Perplexity值作为LDA主题模型效能的评估标准,其值越低代表主题困惑度越低,模型拟合越好。但随着主题数的增大,可能面临着过度拟合的情况,为了使主题数更合理本文选择结合一致性得分综合取舍。 步骤3 进行主题强度计算。在主题强度计算部分,本文采用gensim库进行主题强度的计算,该库是专为大规模文本数据挖掘和主题建模而设计的Python库。主题强度的计算基于LDA模型,该模型通过推断文档中隐含的主题分布来揭示文本数据的潜在结构。 步骤4 进行主题词权重计算。为了深入理解每个主题的语义内容和特征,本文进一步计算了主题词的权重。主题词权重反映了一个词汇对于特定主题的重要性,是主题分析中的关键指标,本文采用gensim库中的LDA模型来估计主题词权重。 (2)社会网络分析 鉴于单用LDA模型会损失掉主题词语间的相关性,故而本文引入点互信息(Point Mutual Information,PMI)与Gephi相结合的方式来构建语义关系网络共现图谱。PMI[11]是由Turney和Littman提出的一种用于计算词语间相似度的计算方法。本文将文档中的词语进行语义相似度计算,然后将其汇总的最终的语义网络结果;最后将其导入到Gephi中,使用Force Atlas 2布局将结果可视化[12]。通过语义网络,可以通过点击情感词语来显示其与其他词语的联系。图中节点大小表示词汇频次,连接线段表示词语间关联关系,不同颜色表示不同聚类。计算公式如下。 图3 研究思路图 2.数据来源 目前国内主要社区型网络平台为抖音、新浪微博、快手、小红书等,考虑到数据分析全面性,本文爬取了抖音、新浪微博、快手、小红书四个主要的社区型网络平台预制菜话题下2022年1月到2024年1月的用户评论数据。经过人工识别发现:抖音、快手两个平台的文本由于平台特点,存在主题相关度低、数据噪声干扰大问题,故而选择删除抖音和快手的评论数据。然后,对保留的微博和小红书数据,通过删除重复文本和纯表情评论等步骤完成数据去噪。对新浪微博数据,为了提高数据质量,本文还额外采取了人工识别的方法以清除无关话题数据。最终,总计得到有效数据67899条。 三、结果分析 1.LDA主题模型分析
本文首先采用结巴(jieba)分词对文本进行了分词,然后对非汉语字符和停用词字典进行了屏蔽,进而提取名词(n)、动名词(vn)、其他专名(nz)作为原始语料。通过构建词袋模型,建立词项词典以及词袋文本的对应向量,并调用TF-IDF模型计算各文本稀疏矩阵的TF-IDF值,来作为文本的特征向量。一致性和困惑度是确定主题数量的重要指标,基于一致性和困惑度指标,结合起来人工研读,选取topic=3最合适;计算过程参考学界普遍做法选取k=3,a=0.1,p=0.01,基于该主题数遍历迭代次数为50-2000的模型并计算困惑度,确定最佳迭代次数为500。 对输出结果进行解读,最终将主题归纳为使用便利、大众担忧、校园舆论,解读结果如表1所示(主题编号下为主题强度)。 表1主题词输出 Topic1:使用便利 主题词分析显示,在预制菜的使用中,大众体验到了显著的时间节约和口味多样化。特别是在忙碌的工作日结束后,预制菜的便捷炒制方式使得下班族能够快速准备饭菜。同时,预制蔬菜的易储存特性也得到了消费者的认可。然而,消费者也指出了预制菜在价格合理性和口感满意度方面的不足。商家可以依据这些评价特点,进一步为消费者提供价格更加合理、制作过程简单、口味更加丰富的预制菜品。 Topic2:大众担忧 分析主题词发现,在预制菜的使用中,大众最担心的问题是添加剂的使用。在部分预制菜产业的健康卫生问题被新闻和视频曝光后,消费者对预制菜的抵制心理更加明显,对预制菜食品安全的信任度下降,这违背了预制菜统一生产更加卫生健康的初衷。商家应当提高生产标准,树立食品安全意识,为消费者提供健康、安全的预制菜,并可以采用“零添加”、“绿色健康”等作为营销口号,以吸引更多消费者。 Topic3:校园舆论 在校园舆论这一主题中,大部分讨论集中在对预制菜进校园的抵制和对校园食品安全的担忧上。面对这种情况,需要国家加强立法,商家提高产品标准,社会加强监督,学校提高管理,多管齐下,共同营造食品健康的校园环境,消除负面舆论,确保学生的饮食安全。 通过对LDA模型分析结果的解读,可以清晰地看到预制菜产业在便利性、食品安全性和校园应用方面存在的挑战和机遇。为了满足消费者的需求并提升大众对预制菜的信任度,商家和相关机构需要根据这些反馈,不断优化产品特性、提升食品安全标准,并加强社会各界的合作与监督。通过这些措施,预制菜企业才能实现更加健康和可持续的发展。 2.语义网络可视化分析 各词语之间并非是孤立的,而是多个主题词之间共同的联系的反映舆论舆情[13]。在LDA主题模型的分析中,本文发现大众对预制菜抵制态度明显,为了进一步的挖掘词语之间的联系,更深入的探讨词语与词语之间的深层语义关系,研究大众抵制预制菜的原因,本文引入PMI语义相似模型来研究各词语对大众反面态度的关系。本文将构建的语义网络导入Gephi 0.10.1,首先计算平均加权度(Average Weighted Degree)和模块化(Modularity),以平均加权度控制节点大小,以模块化来对网络节点进行分类,采用Force Atlas 2进行布局结果如图4所示[14]。在图4中可以看到,社区模块化计算将词语分为了三类,每类主要内容基本与前文LDA主题模型提取的三个主题一一对应,为了方便叙述,本文将三个社区按照前文内容,命名为使用便利、大众生活、校园舆论。选取负面情感色彩明显的词语“生气”,点击“生气”节点得到图5。 结合图5,分析与“生气”相连接的主要节点,对造成负面情绪的原因进行解读发现: 在“生活便利”板块,人们主要对价格不合理、原料不健康和口感较差等问题表现出明显的负面情绪,商家可以针对这些问题进行改进,以提供更令人满意的预制菜产品。在“大众担忧”模块,引起人们负面情绪的问题明显更多,主要有食材不新鲜,使用添加剂和防腐剂问题,半成品没有经过炒制味道不够让人满意,对商家使用预制菜的知情权问题,商家可以针对这些方面进行改进,政府可以在这些方面完善法律法规,社会可以在这些方面发挥监督作用。在“校园舆论”模块,引起人们负面情绪的主要是食品安全和学校食堂饭菜是否营养方面,学校和政府可以聚焦于大众关注的问题进行监督管理。
图4 预制网络模块化语义共现图 图5 与“生气”相关的语义共现网络图 四、结论和建议 预制菜通过提升生产效率、保障食品安全、增加餐饮多样性以及推动相关产业发展,对食品行业和社会产生了深远影响。本文运用LDA主题模型,深入挖掘大众对预制菜的在线评论,并通过多维资源图直观地展示聚类结果。 研究结果揭示:1、部分消费者预制菜使用便利,丰富口味、节约时间,但也有部分消费者认为价格不合理,原料不健康,口感待提高;2、大众对预制菜的担忧主要是添加剂、防腐剂的使用和食品新鲜度;3、校园舆论对预制菜进校园存在抵制和食品安全担忧,引起人们负面情绪的主要是食品安全和学校食堂饭菜是否营养方面。 对此,提出以下几点建议: 1.企业应以市场需求为导向,通过市场调研定价,优化生产流程,选择可靠供应商,确保食材新鲜,建立高效物流,合理采购,多次检测食材,保持生产环境清洁,采用保鲜技术,提高员工对食材新鲜度的认识,同时注重产品创新。 2.企业应提升预制菜品质需优化生产工艺,改进加工方法,使用无菌包装,减少防腐剂依赖,采用冷链运输,寻找天然替代品,加强品牌建设,提高专业素养。 3. 政府需要发挥监管和引导的双重作用,通过制定和执行食品安全的强制性标准,加强对预制菜生产企业的监管力度。鼓励企业采用科学合理的生产方法,加强全产业链监管,确保预制菜产品的质量安全,以此消除公众对预制菜产品安全性的疑虑。 参考文献: [1].谢晶,黄玉坤,张广峰,等.预制菜产业的机遇和挑战分析——基于食品安全和食品营养视角[J].食品安全导刊,2023(20):134-137. [2].韩天明,郝雨菲,许赵田.预制菜消费动机及市场细分研究[J].现代商业,2023(20):23-26. [3].刘威,郑雪丽,栗子琼.预制菜供应链的阶段演进与推进路径研究[J].中国储运,2024(2):86-87. [4].赵靓琳.预制菜行业现状及问题研究[J].现代营销(经营版),2021(9):146-147. [5].安俊文,方梓蓥,高希西,等.我国预制菜产业的发展现状、影响因素及发展趋势[J].食品与发酵工业,2024,50(5):388-394. [6].贾澎涛,孙炜.基于深度学习的文本分类综述[J].计算机与现代化,2021(7):29-37. [7].马玉洋,刘畅.国潮兴起下消费者在线评论的主题分析研究——以国货护肤品为例[J].中国商论,2024(5):73-76. [8].杜恒波,王绍运,罗润东.基于LDA主题模型的中国图书出口效果研究——以亚马逊海外读者评论为例[J].经济问题,2024(2):17-23. [9].尤天慧,陶玲玲,袁媛.基于在线评论的顾客满意度评估方法[J].运筹与管理,2023,32(12):144-150. [10].楚东晓,王雯露,穆勤远.基于LDA和语义网络的产品感知价值维度研究[J].包装工程,2023,44(S1):47-55. [11].TURNEYPD,LITTMANM L. Unsupervised learning of semantic orientation from a hundred-billion-word corpus[R].National Research Council of Canada, Tech.Rep: E-GB-1094,2002. [12].徐戈,王厚峰.自然语言处理中主题模型的发展[J].计算机学报,2011,34(8):1423-1436. [13].王晰巍,邢云菲,赵丹等.基于社会网络分析的移动环境下网络舆情信息传播研究——以新浪微博“雾霾”话题为例[J].图书情报工作,2015,59(7):14-22. [14].关鹏,王曰芬.基于LDA主题模型和生命周期理论的科学文献主题挖掘[J].情报学报,2015,34(3):286-299. |