某电商构建商品集对商品页面点击量和商品销售总额的影响研究
戚宇轩 亚马逊(中国)投资有限公司 北京 100025 摘要:随着电商飞速发展,对商品的页面点击量,商品销售总额和订单量的影响因素的研究越来越多。作者将一个个具有固定规格参数的同类商品互称为变体,同类变体集合称为商品集。本文通过运用双重差分分析法,构建对照组与实验组,来推算变体构建商品集对这些指标的影响。研究发现通过十一组月度数据的中位数来衡量数据的结果,得到结论构建商品集的贡献值为页面点击量有较强的正向影响,商品销售总额和订单量存在正向影响但相对较弱。 关键词:电商;变体;双重差分分析法;页面点击量;商品销售总额;订单量 随着电商市场的发展,提升商品转化率是网站运营的核心,从“曝光、浏览、购买”三个影响转化率的维度细分电商商品转化率的影响因素[1]可以看出这三方面对转化率的重要影响。但是如何提升曝光、浏览、购买这三个影响因素,本文对构建变体商品集这一方法进行研究,推算变体构建商品集对页面点击量、商品销售总额和订单量这三个指标的影响大小。 在某电商平台,用户利用关键词搜索或其他手段对某类商品进行搜索时,有可能出现变体商品并未出现在同一商品集中而分开显示在搜索结果中,即如果搜索某型号背包,此背包不同颜色商品应以商品集的形式展现,在页面搜索结果中应只显示此型号背包的代表颜色,在具体点入此型号背包的商品页面时,才具体显示所有颜色商品。但有些商品在上架时系统出现问题,可能会存在某颜色此型号背包并未与其他颜色商品构成商品集,而单独显示在搜索结果。此类问题会影响该产品的曝光度,因搜索结果曝光率高的位置有限,单独显示的产品几乎没有机会显示在高曝光率的位置,而如果加入到同类的商品集,就可以以商品集的形式产生曝光的可能性。 如果所有变体都在同一商品集中显示,可以进一步提升客户体验,客户可以更快速的找到自己想要的商品。并且在搜索界面可以尽可能的将相关产品呈现给客户,增加点击和购买发生的可能性。 一、关于推算构建商品集能够产生的效果问题 虽然构建商品集可以增加曝光率,但在如何计算所产生的效果时遇到了困难,因构建商品集不能同新增商品一样直接计算收益。在采用双重差分法之前计算收益指标时采用先后对比的方法进行衡量,但由于缺少对照组,很难分清是季节变动的影响因素还是突发情况的波动,抑或是真正的对产品构建商品集而产生的效果,并且选择的产品线种类较少,随着业务量的增加和产品线的增多不再具有很好的代表性。于是本文采取一个新的方法,对商品集做出的贡献进行更全面更具代表性并相对准确的推算。 二、模型与取样方法 使用双重差分分析法[2],构建实验组与对照组对构建商品集产生的效果进行推算,所进行推算的衡量指标为页面点击量,商品销售总额和订单量;并在抽取样本时符合以下条件: (一)定义有问题的商品 一般情况下商品存在构建商品集的问题表现为有同类型的商品,不在商品集中显示,但可以通过搜索只单独在页面上呈现。但随着时间推移,原本在商品集中的商品也有可能从商品集中脱出。原因可能为,后台的其他操作或商品信息变化。这种情况每天都有发生的可能性,所以商品存在构建商品集的问题这个状态在实时变化。 所以为了避免这个情况发生,本文对存在构建商品集的商品进行重新定义。定义为如果一个月第一天和最后一天都存在构建商品集的问题,则认为本商品在这个月内都存在构建商品集的问题;如果一个月第一天和最后一天都不存在构建商品集的问题,则认为本商品在这个月内都不存在构建商品集的问题。 (二)选取空白对照组和实验组 由于之前的方法没有空白对照组,本文在计算中添加空白对照组。为了有效去除掉季节因素的影响,本文选取的数据为年环比数据,举例说明如用2018年一月,2019年一月和2020年一月进行对比,不考虑本商品在其他月份的表现,认为每年的同一个月其他客观条件相同,如做活动等。 在选取对照组和实验组时要保证对照组和实验组满足以下条件,对照组要在2018年,2019年和2020年都保证存在构建商品集的问题,实验组要在2018年和2019年都保证存在构建商品集的问题,但在2020年不存在构建商品集的问题。也就是说,在存在构建商品集的问题的定义前提下,现在的所选取的样本可以理解为对照组在2018年一月,2019年一月和2020年一月商品状态都是存在构建商品集的问题,实验组在2018年一月和2019年一月的商品状态都时存在构建商品集的问题,但在2020年状态变化为不存在构建商品集的问题。 为了更全面的选取样本,本文在抽取样本时针对现在所有产品线中符合抽取对照组和实验组的前提的商品进行分层抽样,即以不同的产品线为不同的层,要求同层内对照组和实验组抽取的样本量相同。由于不存在构建商品集的问题的商品较少,每层抽取的样本量由不存在构建商品集的问题的商品量决定。并且要求产品线中存在符合抽取对照组和实验组的前提的商品的样本总体都大于100。 为了使得抽取的对照组具有代表性,本文对对照组和实验组进行进一步要求。由于存在构建商品集的问题主要应该的指标为页面点击量,要求对照组和实验组在状态同为存在构建商品集的问题的2018年和2019年页面点击量的增长率精确到小数点后两位相同。即2018到2019页面点击量的变动比例相同。以这种方法进一步的使空白对照组更具有代表实验组的能力。 (三)分析方法 通过上文选取方法得到有代表性的对照组和实验组。即有2018年一月到2019年一月页面点击量的变动比例相同的,并且以相同的分布在不同的产品线上的,样本量相等的对照组和实验组。 我们将通过研究对照组和实验组从2019年到2020年的变化状况来衡量通过构建商品集所作出的在页面点击量,商品销售总额和订单量这三个指标上的贡献值。图1为对照组和实验组的实验方法的示意图。途中orphan表示状态为存在构建商品集的问题,non-orphan表示状态为不存在构建商品集的问题。a为由于状态变化使得对照组和实验组之间出现的差距 图1 对照组和实验组实验方法示意图 三、实验结果与数据展示 本文运用上述收集对照组和实验组的方法,对11个月的数据进行实验,即一月的数据为2018年一月,2019年一月和2020年一月组成的符合对照组和实验组假设的数据。图2为每组数据的页面点击量变化率的差异量,商品销售总额变化率的差异量,订单量变化率的差异量和每组数据的数据量。 图2 实验结果数据 页面点击量变化率的差异量(gv_increase):实验组的页面点击量变化率的增量减去对照组页面点击量变化率的增量,实验组的页面点击量变化率的增量为2020年到2019年的实验组的页面点击量变化率减去2019年到2018年的实验组的页面点击量变化率,使用相同方法计算对照组的页面点击量变化率的增量。 商品销售总额变化率的差异量(gms_increase):实验组的商品销售总额变化率的增量减去对照组的商品销售总额变化率的增量,实验组的商品销售总额变化率的增量为2020年到2019年的实验组的商品销售总额变化率减去2019年到2018年的实验组的商品销售总额变化率,使用相同方法计算对照组的商品销售总额变化率的增量。 订单量变化率的差异量(order_increase):实验组的订单量变化率的增量减去对照组订单量变化率的增量,实验组的订单量变化率的增量为2020年到2019年的实验组的订单量变化率减去2019年到2018年的实验组的订单量变化率,使用相同方法计算对照组的订单量变化率的增量。 每组数据的数据量(sample_count):本组数据中对照组和实验组的商品总数。 四、贡献值推算 (一)用中位数衡量 因为选取的数据为年环比数据,所以每个月的数据都是单独选取的,于是将11个月的数据当作11组平行数据,由下图我们可以看到订单量变化率的差异量(order_increase)存在3个异常值,并且页面点击量变化率的差异量(gv_increase)和商品销售总额变化率的差异量(gms_increase)都不是对称分布。于是我们用11组数据的中位数来进行贡献值的推算,于是页面点击量的增长率为28.90%,商品销售总额增长率为8.96%,订单量增长率为5.27%。
(二)用加权平均衡量 将11个月的数据当作11组平行数据,并且运用每一组数据的数据量作为权重,对11组数据的结果进行加权平均得到贡献值的推算,页面点击量的增长率为27.94%,商品销售总额增长率为7.13%,订单量增长率为7.48%。 (三)用商品水平的平均值衡量 由于方法1和方法2使用月度数据计算,之后尝试汇总11个月的数据,以具体每个商品的表现来推算。在计算商品水平的页面点击量变化率过程中,发现由于有大量商品存在页面点击量为0的情况无法计算,于是将页面点击量为0的商品剔除,并计算页面点击量变化率。下图5展示剔除页面点击量为0的商品之后页面点击量变化率的分布。 图5 页面点击量变化率的分布 由于存在大量的异常值,对异常值进行剔除,本文使用1.5倍四分位数差作为衡量异常值的标注,上边缘值为(2.7905735)下边缘值为(-4.5410965),在删除异常值后计算每一个商品的页面点击量的增长率为,商品销售总额增长率为和订单量增长率。以所有商品的平均值进行贡献值的推算。页面点击量的增长率为25.23%,商品销售总额增长率为8.64%,订单量增长率为-7.56%。 (四)加总所有点击量为0的商品再进行平均 由于有大量商品存在页面点击量为0的情况无法计算,于是将所有存在页面点击量为0的商品加总,计算页面点击量的增长率,商品销售总额增长率和订单量增长率,再将其与所有非0商品水平的结果进项平均值计算,以次来进行贡献值的推算。所有存在页面点击量为0的商品的平均值为页面点击量的增长率为91.64%,商品销售总额增长率为47.08%,订单量增长率为36.69%。再和其他商品进行平均之后,页面点击量的增长率为58.43%,商品销售总额增长率为27.86%,订单量增长率为14.57%。 下表对以上4种方法进行总结,各个如下所示。 表1 各个方法贡献值的推算 五、方法选择 本文最终将选取用方法1以中位数进行贡献值的推算,最终选取的贡献值为页面点击量的增长率为28.90%,商品销售总额增长率为8.96%,订单量增长率为5.27%。可以看出构建商品集的贡献值为页面点击量有较强的正向影响,商品销售总额和订单量存在正向影响但相对较弱。 选择理由为,无论是以数据的数据量作为权重还是将11组数据全部相加到一起进行商品水平的平均值计算都会将最终的结果倾向样本量较大的月份。但由于选取的数据为年环比数据,每个月的数据都是单独选取的,所以每组数据的产品线的分布与表现都不同,每组与每组之间相互独立。因此本文认为并没有理由去将数据量作为权重,认为11组比重相同更为合理。 在方法3和方法4中都对已经选出的11组数据进行了样本的删除。但由于我们在选取对照组和实验组时认为,对照组可以代表实验组,并且通过对照组和实验组在状态同为存在构建商品集的问题的2018年和2019年页面点击量的增长率精确到小数点后两位相同这种方法进行控制。如果在之后删除将会打破最开始的实验前提,使得对照组和实验组不具有比较性。并且在实验之前本文认为页面点击量为0和计算页面点击量的增长率过高都存在研究价值,是在日常优化中所存在的状况,所以将这些商品包含在选取对照组和实验组中。 六、展望 (一)由于历史数据的限制,取数据的年限只能到达2018,而随着时间的推移2021年的数据也可以作为新的数据源,加入到计算中。现在的数据只计算到2020年11月,未来可以添加更多组的数据进一步进行推算,来增加推算结果的精确度。 (二)由于产品线对选取对照组有一定帮助,但同一产品线中还是存在具有相对差距的产品。可以对产品线进一步进行细分,同时用实验组的价格区间对对照组进行限定选取更具有说服力的对照组。 (三)在方法3和方法4中,由于要计算产品层级的页面点击量的增长率,我们还可以对0值进行补值,将0的数值补为1,使得页面点击量的增长率可以计算。但会一定程度产生了数值本身为1的产品和数值为0的产品产生混淆。可以统计原本含数值1的产品数量,如果多则不适合补值,如果含数值1的产品少或没有则可以尝试补值的方法。 参考文献: [1] 张晓丽,韩潇潇,徐悦.跨境电商中商品转化率的关键影响因素研究[J].中国经贸导刊, 2021(04):132-134 [2]叶芳,王燕.双重差分模型介绍及其应用[J].中国卫生统计,2013,30(1):131-134. |