基于大型公共卫生事件冲击下的大数据消费行为研究
冯友恒 广州新华学院信息科学学院 摘要:受到大型公共卫生事件的冲击,消费者的消费观念在逐渐改变。具体来说,消费者对进口产品的选择显著下降,而对国货的需求量大幅提升。本文将基于大数据分析和回归模型来量化刻度消费者行为在大型公共卫生事件冲击下消费金额和类型变化。结合分析结果,家具类、饮料类和建筑及装潢材料类的变化最大。本文的研究成果对未来大数据消费预测有参考作用。 关键词:大数据;消费行为 一、引言 2020年是不平凡的一年,新冠疫情席卷全球,这是一场史无前例也是最漫长的一场攻坚战。在这个特殊的时期,人们的生活方式正在悄然改变。为了保证抗疫的有效进行,我国对国外产品进行了比较严格的流程,这对海外产品形成了比较大的冲击。但与此同时国内产品却受到了许多人的青睐,许多国货的销售量呈上升趋势。 2006年,全世界产生了161EB(1EB=1024B)的数据,2011年便达到了1.8ZB(1ZB=1024EB)的数据,到了2020年便增长到了惊人的35.2ZB[1]。据媒体公开的结果来看,仅仅在这两年多的公共卫生事件,应用于病情诊断、医学科研等相关医护工作的场景的大数据和智能技术接近17%[2]。这种如此众多的数据汇聚在一起便是常说的“大数据”。数据本身只是一串数字,但是当众多的数字聚集在一起时,通过特定的数据分析模式,可以提取出有价值的内容。 对消费者在大型公共卫生事件冲击时期的消费行为进行分析,研究者就必须把目光放到大众消费者身上去获取信息。据京东平台统计,2020年1月19日至22日期间销售口罩1.26亿只、消毒液31万瓶、洗手液100万瓶,其中电子体温计、感冒药、VC泡腾片、护目镜等相关产品也有不少的上升。此外,在春节期间盒马鲜生的日均蔬菜供应量达到了平时的6倍,美团外卖慢性处方药增长237%[3]。另外,根据一份来自北京大学的报告,防护消费是增长的最多的,80%以上的消费者都增加了对防护用品的消费,其中超过53%的消费属于“大量增加”的标签;其次增加的便是属于“自我增强型消费”和“提高个人能力的消费”,半数以上的人增加了“食品生鲜”消费以及“学习技能的消费”[4]。但是此份报告研究没有建立相关模型对数据进行更细致的分析,从而使得不能得到一些定量分析的结果。此外,它只从三个方面进行分析,没有把范围扩大到大部分消费者所涉及的每个行业,而且也没有表明具体的时间。因此本文从国家统计局收集2019年12月到2021年12月期间每月的消费状况,消费类型分为社会消费品零售总额和商品零售两个大类。随后,本文将建立一个以消费者行为为中心的多元回归模型,并利用Python实现对数据的OLS回归分析,来分析在此阶段期间消费者的行为变化。 二、方法和数据 本文研究数据来源于国家统计局发布的从2019年12月到2021年12月时期的每个月的消费数据。数据的获取是根据不同情况分类,对限额以上单位进行全数调查,而对限额以下单位进行抽样调查。该样本按三个标准分类:按经营单位所在地分类、按消费类型分类以及按商品零售分类。社会消费品零售总额包括除汽车以外的消费品零售额、限额以上单位消费品销售额和实物商品网上零售额;按经营成分分为城镇和乡村;消费类型可分为餐饮收入和商品零售,其中商品零售可细分为16项小项类型。由于小部分的数据局限性或存在部分缺失的情况,本次分析主要就社会消费品零售总额的两项与消费类型中商品零售的部分进行分析消费数据,从而得到消费者的消费行为偏好。 如表1所示,数据左一列是对应的每个时间段,随后往右便是具体的内容项。从左到右依次为:社会消费品零售总额,除汽车以外的消费品零售总额,限额以上单位消费品零售总额,商品零售,限额以上单位商品零售,粮油、食品类, 饮料类,烟酒类,服装鞋帽、针纺织品类,化妆品类,金银珠宝类,日用品类,家用电器和音响器材类,中西药品类,文化办公用品类,家具类,通讯器材类,石油及制品类,汽车类,建筑及装潢材料类。[5] 表1 部分消费额数据汇总 本研究建立以消费者行为为中心的模型,使用最小二乘法(ordinary least square,OLS)多元线性回归来进行相关性分析。首先,本文首先通过爬虫和信息检索的方式,将数据进行初步的清洗并通过Python 的pandas库导入识别。随后本文利用scikit-learn Python库相关的API开展OLS回归分析,并构建相应的评估指标。随后,分析结果通过matplotlib进行数据可视化。 表2 结果统计汇合 图1 除汽车以外的消费品零售总额、限额以上单位消费品零售总额散点图 三、实证分析 本研究利用python对所收集的消费数据进行OLS回归分析,输出后得到了OLS的运行结果以及所对应的散点图。本次研究将收集以下几个数值对比分析:R-squared、t、conef、F-statistic。根据统计学概念知识,R-squared是确定系数,自变量可以解释多少的因变量;F-statistic是模型的显著性检验,数值越大模型拟合得越好;conef则是相对于自变量的变化率,数值越大变化率越高;t属于正态分布中的标准误差。回归后的结果如表2所示。不同行业的具体结构,如散点图1至图9所示。图中的直线表示回归方程,而图中的散点图便是输出结果的每个数据,从图中可以看出各项数据的拟合程度。 图2 服饰鞋帽、针纺织品类+化妆品类散点图 图3 金银珠宝类+日用品类散点图 图4 家用电器类+中西药品类散点图 图5 文化办公类+家具类散点图 图6 通讯器材类+石油及产品类散点图 图7 汽车类+建筑类散点图 图8 限额以上单位商品零售+粮油、食品类散点图 图9 饮料类+烟酒类散点图 通过对比上述回归模型的结果,可以得出如下结论: 1.根据R-squared的值可以发现,除汽车以外的消费品零售总额、限额以上单位商品零售以及服装鞋帽、针纺织品类的值最高,分别为0.991、0.884、0.807。根据统计学知识分析,说明此三组数据可以解释该行业的大部分数据,代表性比较强;紧接其后的金银珠宝类(0.768)和建筑及装潢材料类(0.723)也有比较强的代表性;随后通过对比F-statistic,可以发现其最大的也是上述三位。它们分别是2354、120.4和88.03。对比之后发现这三组数据拟合度也是最好的。 2.对比conef值,排在前三位的是家具类(94.712)、饮料类(84.4084)和建筑及装潢材料类(84.1564),这三个行业说明在疫情时间的销售额变化率最大,也是最变化幅度最大的三个行业;其次,属于变化幅度比较大的行业是金银珠宝类(69.5877)和中西药品类(52.4126)。相反,相对于受疫情变化最小的是限额以上单位消费品零售总额(0.8091)、除汽车以外的消费品零售总额(1.1247)、限额以上单位商品零售(1.6962)。 3.通过分析t值,可以看到除汽车以外的消费品零售总额的t值比其他方面大得多(48.522),这说明此方面得销售额误差较大;相反,t值最小得三方面是日用品类(1.859)、其中:限额以上单位消费品零售总额(3.360)、化妆品类(3.936),这三方面的消费数据误差较小。 4.以往统计报告中,医护用品的消费额大大增加。但是通过对此次数据分析,可以发现在此变化当中变化率最大的反而是家具类、饮料类以及建筑及装潢材料类。 图10 商品零售的分布 为更好呈现分析的结果,本文对商品零售的分布、城镇乡村收入对比以及对家具类建筑类饮料类的变化做出了对比,并通过图形化的方式,进一步展示分析的结果。图10给出了2021年商品零售的分布情况,从图中可以看到,限额以上单位商品零售的占比达到了50%。相反而文化办公用品类只占到了1%。图11是家具类、建筑类以及饮料类的变化图,可以看出这三种类型的变化比较频繁,而饮料类的销售额显著的高于其余两类。图12是城镇乡村收入对比图,不难看出城市的收入远高于乡村,与预期相符。 图11 家具类建筑类饮料类的变化 图12 城镇乡村收入对比 四、研究局限性 本文的研究仍然存在一些缺陷和局限性。具体来说,本文的选取的样本较为局限。在搜集样本的过程中,只能通过信息检索的方式后的二手数据,只能获得一些代表性销售额而不能获得行业细分的具体销售数据。此外,根据统计局发布的数据中还有部分数据存在缺失情况,导致找不到合适的因变量所以决定放弃研究,只研究了大部分的数据。其次是分析模型的局限性,部分模型分析出来的数据统计性不高。例如,日用品类的R-squared只有0.141,这说明此此收集的数据不足以概括在此时间段的变化趋势;此外限额以上单位消费品零售总额和通讯器材类的R-squared值也相对较低,仅分别为0.350和0.473。 五、结论 综上所述,本文结合回归模型分析了在大型公共事件冲击下消费者行为的变化。结合研究结果,家具类、饮料类和建筑及装潢材料类conef值最大,表明三个行业说明在疫情时间的销售额变化率最大,比较容易受到疫情的影响。家具和建筑分别属于轻工业和建筑业,而饮料类属于快消业,这三种行业比较容易受到疫情影响。因而,当出现疫情后,轻工业和建筑业的消费额就会出现快速下降的趋势。类似的,快消品是比较受消费者欢迎,疫情期间消费者都偏向选择购买。值得一提的是,本次研究寻找的样本不够齐全,部分缺少说服力,后续更深入的研究可以搜集齐全的样本数据,对日用品类、限额以上单位消费品零售总额和通讯器材类进行更多样化的大数据分析(基于更先进的模型, 如神经网络),从而构建置信度更高的统计模型,使得研究结论的可信度和鲁棒性进一步提升。本文的研究结果对未来除汽车以外的消费品零售总额、限额以上单位商品零售以及服装鞋帽、针纺织品类有借鉴和指导意义。 参考文献: [1]杨丹.大数据时代消费者行为与精确营销研究[D].上海工程技术大学,2015. [2]Gisempire. 疫情防控中的大数据与智能应用分析[R].2020年4月1日. [3]谭诗怡.浅谈新冠肺炎疫情对居民消费行为的影响[D].2020年9月. [4]彭泗,清沈俏,蔚姚凯.北京大学报告|疫情下的消费者行为与心态调研:安心、爱心与信[R].北京大学光华管理学院深圳分院,2020年4月20日. [5]国家统计局.2019年12月-2021年12月社会消费品统计[Z]. |