TAG标签 | 网站地图 现代商业杂志社-国内统一刊号:CN11-5392/F,国际标准刊号:ISSN1673-5889,全国中文流通经济类核心期刊
热门搜索:发展路径 企业管理 市场营销 跨境电商 营销策略 构建 信息化 财务管理 互联网 内部控制

全国流通经济

当前位置:主页 > 全国流通经济 >

基于孤立森林和自助法商品销售异常研究

2024-09-20 16:09 来源:www.xdsyzzs.com 发布:现代商业 阅读:

尹润峥  刘莉  黄雨露  朱雨琦(通讯作者)   

(湖南省烟草公司长沙市公司宁乡市分公司,湖南 长沙 410600)

摘要:零售行业销售数据体量大,日常流水信息多,销售异常难以发现,数据治理困难。因此,本文选取某零售企业的销售数据作为研究样本,分别从横向和纵向出发,先在横向方面对同经营规模的同规格商品销售量,使用孤立森林算法进行异常值检验,形成零售门店-商品异常规格名单,为排除偶然因素在孤立森林算法的基础上加入容忍度,更加精准确定正常值范围。纵向上使用自助法对异常规格的销售数量结果进行对比。最后确定横纵向都异常的商品规格以及时间段,计算零售门店的销售相符率,为之后终端数据治理做准备。

关键词:孤立森林;自助法;销售相符率;异常检验

一、引言

数字化是未来提升企业核心竞争力、激发创新活力的必然要求,同时为顺应行业高质量发展的要求,营销数字化转型需加速推进,零售终端作为销售渠道的末端,是行业数据的基础来源。如何保证基层数据质量,治理基层数据来源,实现下一步的数据运用,是目前营销工作有待解决的问题。本文通过销售数据异常检验,研究终端数据真实性,从而达到终端数据治理的目的,研究意义主要体现为以下三点:第一,通过数据治理有助于零售行业的数智化转型、推动行业高质量发展。第二,有助于营销业务条线高效率、准确掌握市场信息。第三,支持一线工作人员提供有针对性的客户指导,提高客户服务水平。

二、现状分析

门店的销售相符率是对其经营管理水平的重要评估指标之一,它反映了门店销售与库存管理方面的准确性。然而由于商品销售不规范、销售记录不准确、库存误差等因素的影响,门店的销售相符率往往存在较大的波动。这种波动给门店的经营管理带来了一定的困扰,不仅增加了经营风险,还可能导致利润损失和客户不满。

因此,建立一套有效的零售业销售异常检验系统,对于及时发现并解决销售过程中的异常情况,提高销售数据的准确性和可靠性,助于门店更好地掌握库存情况、优化进销存管理,提升整体经营效率和竞争力,规范经营管理流程、推进数据治理进度具有重要意义。

三、总体框架

本文对某零售企业销售情况进行了全面梳理,该零售企业的销售水平呈现出多样化的特点。一些终端表现出良好的销售水平,符合预期,这可能得益于其健全的库存管理系统和操作规程。然而,另一些终端存在较大的偏差,可能由于不规范的库存管理、操作失误等原因所致。

为了解决门店销售异常的问题,本文从横向和纵向两个角度出发,采用孤立森林算法和自助法,对门店进销存数据进行异常值检验,对门店发送预警,具体的算法流程如图1所示。

图1 算法整体流程

1 算法整体流程

四、 横向算法

横向算法是以周为单位对相同经营规模下的门店商品规格的销售数据进行统计与检测,通过统计发现,在相同经营规模下同一规格在相同的时间段内销售总数相似,因此本文选择经营规模这个指标对门店进行区分。

1.数据源

本文使用了某零售企业23等级经营规模所有门店商品销售数据,以及同一时间段内的门店商品库存、进货数据。

算法流程图

图2 横向算法流程框图

2 横向算法流程框图

3.算法流程

1)数据清洗

清除门店销售数据中非研究对象的流水数据,以门店和规格为单位计算一周内单个门店单个规格的销售总数,得到销售数据总表。通过库存数据和进货数据,判断门店是否存在当前规格,并得到门店规格总数,获取门店中存在而未销售的规格信息,计算门店相符率。

2)通过孤立森林获取异常名单

通过统计发现,在相同经营规模下同一规格在相同的时间段内销售总数相似,也就是在数据表现上销售数据是集中的,孤立的数据就是异常的,同时为了更好地区分正常数据与异常数据,我们在算法执行后提取正常区间的最小值与最大值,作为对应时间段内该规格所销售的正常范围,以此做为商品销售数据的判断初步判断。

3)孤立森林算法优化

为了保持数据正常范围的有效性并且提高算法的灵活性,同时更好地排除偶然情况。本文引入容忍度这一指标计算,对横向判断范围进行适当的扩充,容忍度判定算法的主要计算公式如下:

计算公式

例如,本文检测了23等级门店2023年10月2日至10月8日销售商品X的数据,如图3所示(绿色为孤立森林算法的判定区间,黄色为容忍度算法扩充的范围)。通过适当扩充判断范围,可以减少因孤立森林算法过度敏感而导致的误判。

图3 孤立森林算法结果和改进后的算法结果对比图

3 孤立森林算法结果和改进后的算法结果对比图    

4)算法结果

通过横向算法流程,在庞大的销售流水数据之中获得销售异常的规格,异常的规格表单部分数据展示如表1所示。

1 横向结果表

表1 横向结果表

五、纵向算法

为了提高模型的准确性和可信度,利用纵向算法对异常规格再进行分析。纵向算法是比较同一个门店的同一个规格在不同时间段内,是否处于一个平稳的状态,目的是为了排除门店由于时间因素或其他客观原因导致该门店的商品出现异常。

1.数据源

使用了跟横向算法相同的数据源即销售数据总表,在横向算法计算得到的异常规格结果的基础上,只对横向算法执行后被判断为异常的规格进行分析,这样就减少算法执行次数,可以大幅提高算法效率。

算法流程图

图4 纵向算法流程框图

4 纵向算法流程框图

3.算法流程

1)数据预处理

根据横向算法的判断结果,通过去重操作,得到有异常规格的门店及其规格信息的名单,并利用此名单对销售数据总表进行内连接操作,筛选出在横向判断为异常的规格所有时间段的销售数据。在纵向判断时就只对横向判断出现异常的规格进行判断,降低算法时间复杂度。

2)自助法

将销售总数作为数据集,由于数据群比较小,为了计算这周数据的稳定性,利用自助法来判断数据集中的每一个数据是否是异常的,自助法主要计算方式如下。

①对于已存在的数据集定义一个抓取次数n,并对此数据集进行n次又放回的抓取,并记录抓取的数据,形成一个结构x。

②对于获得的结构x中的所有数据进行平均数计算,并将获得的计算结果存入结构y中。

③定义一个执行次数m并对原始数据集执行m次步骤a与b,最后会获得一个长度为m的结构y。

④对结构 y 获取置信区间时,通过排序后取 2.5% 和 97.5% 的百分位数作为上下边界,将区间内 95% 的部分定义为正常销售范围。若原始数据位于该区间内,则视为正常;否则,视为异常。

⑤如使用门店A销售的商品A处理后的销售数据来举例展示,使用自助法之后的结果会如图5所示,其中在绿色覆盖区间内的数据为正常数据,而在绿色范围之外的是异常数据。

图5 自助法结果示意图

5 自助法结果示意图

3.算法结果

通过纵向算法对横向算法异常的规格再次进行检测,得到的异常规格表单部分数据展示形式也跟表1一样。

六、异常原因分析

1.数据源

本文使用了横向计算结果和纵向计算结果进行交集操作,选取出横向算法过程与纵向算法过程均被判断为异常规格名单信息,以及利用销售数据总表计算得到正态分布所需的平均数、标准差和商品销售正常范围等数据。

2.算法流程

1)通过横纵向计算结果获取最终异常名单

利用横向计算结果和纵向计算结果进行交集操作,选取出横向算法过程与纵向算法过程均被判断为异常规格名单信息

2)数据预处理

①通过横向判断,计算获取每一个规格在对应时间段内的销售总数的平均数、标准差,以及孤立森林算法获取的正常区间。

②利用以上正常数据结构对异常结果进行对比操作判断最终可能的异常原因。

3)异常原因判断

本文对计算出来的最终异常规格进行原因分析,通过市场调查,总结出此商品出现销售不相符的原因主要有以下四种情况:第一,在官方经销商之外的地方进行取货操作,没有通过官方正规渠道获取货物;第二,在销售时忘记将商品出库,导致部分销售记录缺失;第三,为了完成日常KPI或者其他原因导致出现商品刷单行为;第四,其他原因导致异常情况出现。

①判断指标确定。对于每一条异常规格名单信息,本算法利用以下三个指标判断与分析其异常原因。一是销售总数与正常销售总数区间之间的大小关系。 二是支付ID在该时间段内占所有支付ID的百分比大小情况。三是异常规格是否是畅销商品。

②根据不同情况,进行异常情况的分类:如果一个异常规格的销售总数小于正常的销售区间则此规格的异常原因可能是忘记出库;如果一个异常规格的销售总数大于正常区间,同时在检索这个规格的销售记录发现同一个支付ID出现的次数超过80%则此规格的异常原因是疑似出现刷单行为;如果一个异常规格的销售总数大于正常区间,同时同一支付id出现次数占比不超过80%,同时此规格属于畅销商品,则此规格的异常原因是疑似从非官方渠道进货导致;以上情况都不被判定则被认为是其他原因。

图6 异常原因分析图

6 异常原因分析图

③计算结果置信度。在特定条件下,大量独立随机变量的均值近似服从正态分布。在这种情况下,每个门店内同一规格在不同时间段内的销售总数可以看作是独立的随机变量,因此这些销售总数的均值在一定程度上遵循正态分布。

④置信度是作为判断异常原因是否真实的一个概率,本文利用销售数据总表得到正态分布曲线的平均数与标准差,利用以下公式计算出最终置信度。

置信度是作为判断异常原因是否真实的一个概率

计算结果如表2所示,其中展示了部分异常原因分析后的结果。

2 异常原因结果表

表2 异常原因结果表

七、结果分析

使用横纵向比较后的汇总异常规格名单,计算门店一个时间段内的异常规格总数,再利用商品门店库存和进货数据获得的门店在售规格总数,并最终使用以下公式计算门店的销售相符率。

结果分析

最终计算门店一个时间段销售相符率的部分结果,如表3所示。

3 销售相符率结果表

表3 销售相符率结果表

  八、结论

通过本文的研究,从横向和纵向两个维度出发,利用优化后的孤立森林算法和自助法成功实现零售行业销售数据异常值的检测。降低了因偶然因素而导致的误判,从而提高了模型的准确性。接着,计算了门店在固定时间段内销售相符率,根据这个结果对门店销售相符情况进行预警,从而达到终端数据治理的目的。这些研究成果为商品销售数据的异常检测提供了有效的方法和技术支持,有望在实践中为门店账实相符的数据分析和决策提供有力的支持和参考。

参考文献:

[1]李加军.基于孤立森林的多离群点数据检测算法设计[J].现代电子技术,2024,47(5):139-142.

[2]张熠凡,任好洁.基于控制在线错误发现率的异常检测方法[J/OL].系统科学与数学,1-27[2024-03-26].

[3]杨晓峰,魏浩翰,张强等.利用孤立森林和深度学习融合多特征参数的GNSS-IR土壤湿度反演方法[J/OL].测绘通报,1-7[2024-03-26].

[4]吴欣然,张凌,顾淼.基于孤立森林算法的统计报表异常数据检测[J].信息技术与信息化,2023(12):208-211.

[5]陈美霞,梁师嵩,胡佳乔.基于孤立森林的城轨车辆空转滑行异常检测方法研究[J].铁道机车车辆,2023,43(6):160-166.

[6]钟秋惠,李勇.基于改进的孤立森林风电机组数据异常检测[J/OL].重庆工商大学学报(自然科学版),1-9[2024-03-26].

[7]钱旭盛,朱萌,翟千惠等.基于改进孤立森林算法的异常用电行为识别方法[J].沈阳工业大学学报,2023,45(6):601-606.

[8]王芸.基于孤立森林算法的电梯运行异常状态在线检测[J].电子产品世界,2023,30(10):51-53+57.

[9]朱怡蒙,贺可太,姜肖依等.基于周期基准孤立森林的服装供应异常监测算法[J].计算机应用,2023,43(S2):268-275.

[10]雷天纲,陈刚.基于Bootstrap方法最大熵优化过采样算法[J].数据采集与处理,2023,38(3):727-740.

栏目设置
推荐内容
相关内容
发表评论