基于网络搜索数据和XGBoost模型的游客量预测研究
|
——以杭州市为例 毛玲 (南京理工大学紫金学院商学院,江苏 南京 210000) 摘要:旅游业客流量的预测是营销和运营的重要环节,但官方数据的滞后性使得以往的预测方法难以捕捉旅游市场的最新变化趋势。考虑到旅游涉及的网络搜索行为和客流市场是紧密相关的,因此分析了关键词搜索量与实际游客量之间的因果关系,探讨了引入节假日、周末变量提升模型预测精度的可能性,以此构建了基于百度指数和抖音搜索数据的自回归分布滞后(ARDL)模型和擅长捕捉非线性结构的集成模型XGBoost,并与传统ARMA模型进行比较。以杭州市为例,实证结果表明,相比ARMA模型,样本外预测精度显著提高,含搜索、时间特征的ARDL模型均方根误差降低了21.1%,XGBoost模型则降低了41.4%。应用加入网络搜索数据的模型,可以实现利用当下的搜索量预测未来一至三天甚至更久的游客量,为旅游管理部门提供更及时、更准确的决策支持。 关键词:游客量预测;搜索数据;时间序列;XGBoost 一、引言 随着旅游经济的快速发展,我国游客流量呈现显著增长态势,游客流量的精准预测已成为提升城市管理效能、优化资源配置体系、保障游客安全的关键技术支撑。杭州作为长三角重要的经济、文化和交通枢纽,以其独特珍贵的文化遗产和丰富多样的旅游资源被誉为“人间天堂”。近年来,杭州旅游热度随着G20峰会、亚运会等盛事的举办而持续走高,如何准确预测旅客流量、在宏观层面实施有效调控的问题,对杭州乃至浙江区域的旅游规划、资源配置与经营决策都具有重要的理论价值和现实意义。因此,利用2024至2025年杭州市游客量数据进行实证分析,通过对网络搜索数据的提取和应用,探索消费者对关键词的搜索指数能否反映旅游人数,并构建适合的模型,以实现对游客量的精准预测。 二、文献综述 旅游客流量的定量预测方法向来是全球旅游研究领域备受关注的研究课题。Christine Lim等(2000)[1]采用ARIMA模型来分析亚洲至澳大利亚游客人数变化趋势,Gunter(2015)[2]应用多种不同的单变量和多变量来预测巴黎的五个重要游客入境市场的旅游需求,YA0 Yuan等(2020)[3]运用神经网络增强的隐马尔科夫时间序列预测模型对美国入境旅游人数进行预测,人工智能方法因其对大数据中的非线性趋势的挖掘和强大的计算能力的优势在预测旅游客流量领域受到了越来越多的关注。 同时,消费者网络平台搜集的即时信息恰好弥补了传统方法中数据滞后的缺陷。孙烨等(2017)[4]基于PC 端和移动端的百度指数,以三清山为例,建立日本旅游流ARMA模型,对旅游量预测结果进行对比分析,发现移动终端百度指数更好地解释了实际访客量的变化。 基于前述文献,本文在如下方面进行探索研究:一是随着短视频平台的兴起,相比百度游客可能更倾向于在抖音进行搜索,尝试分析抖音搜索指数的效果;二是滚动预测,对未来1-3天的游客量进行预测和评估,相比单日预测能提供更全面的趋势信息。 三、理论框架 (一)信息搜索与旅游决策 网络搜索量是消费者关注度的重要体现,人们在出游前,城市天气、景点门票、攻略、交通等搜索数据等都会产生“旅游大数据”。旅游行为过程可以分为消费需求诞生、网络信息搜索、综合判断决策的步骤。需求产生后旅客构造不同关键词如旅游攻略、西湖门票,进行线上信息调研与评估决策,这一过程是驱动旅游消费和市场变化的关键路径之一。 当前很多网络平台将其搜索数据对外公开发布,其中最有说服力,最常用的是百度搜索指数和抖音搜索指数。它们不是搜索量的简单叠加,而是利用统计模型对搜索关键词进行加权分析,反映网民的搜索强度和搜索意愿。绘制来杭游客量和抖音关键词“杭州旅游”的搜索量曲线发现两者的变化趋势存在一致性,如图1所示。 ![]() 图1 杭州市2024年3月1日至2025年5月31日实际日游客量和抖音关键词“杭州旅游”的日搜索量 (二)模型选择 1.ARDL(自回归分布滞后模型) 时间序列分析中最经典的是自回归滑动平均模型模型(ARMA)。当因子Y既受自身先前值影响,也受解释变量(自变量)及其滞后期的影响时,称为ARDL模型。一般形式为: ![]() (三)预测策略 对模型预测能力进行客观评价,需要对未来一段时间内而不是只对未来1期进行预测评估,结果才有一定的说服力。这种预测未来多个时间步的过程称为多步时间序列预测。 若以三天后的旅客量为预测目标可以采用递归多步预测。即使用先前时间步的预测值作为输入来预测后续时间步的值。该方法最初预测一个时间步,然后使用该预测作为下一个时间步的输入,持续该递归过程直至所需的预测范围。优点是仅需训练一个模型,因此计算量较低;缺点在于由于使用上一步的预测值作为输人,预测误差会随着时间传递扩大。 ![]() 四、实证分析 (一)数据来源 从杭州文化和旅游数据在线平台(https://data.wgly.hangzhou.gov.cn/)公开可下载的数据范围内,收集了2024年3月1日至2025年5月31日的来杭游客量数据,合计457个数据,作为本文的研究对象,个别天数官网并未公布采用线性插值法补全。其中2024年3月1日至2025年2月28日合计365个数据作为训练集,2025年3月1日至2025年5月31日合计92个数据作为测试集。 搜索数据来源于百度指数网站(http://index.baidu.com)以及巨量算数网站(https://trendinsight.oceanengine.com/), 时间范围为2024年3月1日至2025年5月31日。 (二)关键词选取及特征处理 考虑旅游者的搜索行为偏好,参考相关文献的做法从“衣、食、住、行、游”这五个旅游要素中确认初始关键词,再利用百度指数的关键词推荐工具拓展,选取排名靠前的搜索关键词,最终确定了12个关键词,分别为:杭州天气、杭州美食、杭州小吃、杭州住宿、杭州酒店、杭州交通、杭州机票、杭州地图、杭州旅游、杭州旅游攻略、杭州旅游景点、西湖门票。收集这12个关键词的百度搜索指数以及“杭州旅游”的头条综合指数、抖音搜索指数、抖音综合指数。 其次,所选关键词搜索趋势对于旅游市场流量需要具有领先性和相关性才具有预测能力与价值,因此采取时差相关系数来衡量每个关键词的领先阶数与相关系数,公式如下: ![]() (三)数据关系分析 1.协整性检验 为保证时间序列样本的平稳性和避免伪回归现象,对序列进行单位根检验和协整检验。单位根检验采用ADF检验法,检验结果见表1。结果显示,游客量、百度指数、抖音指数的时间序列是平稳的。 表1 ADF检验 ![]() 2.格兰杰因果检验 格兰杰因果检验的概念最初由格兰杰在 1969 年提出,其核心原理基于向量自回归(VAR)模型框架。VAR 模型在时间序列分析中被用来描述多个变量间的动态相互作用,而格兰杰因果检验则专门用于分析这些变量间的潜在因果关系,能够检验一个变量是否有助于解释另一个变量的将来变化趋势,即是否具有预测能力。根据表2的格兰杰检验结果,在滞后长度均为2时,关键词指数的变化会引起杭州实际游客量的变化,其中关键词“杭州旅游景点”或“杭州旅游”与杭州实际游客量之间是相互影响的。 表2 变量的格兰杰因果关系检验 ![]() (四)预测模型建立 1.自回归分布滞后模型(ARDL)的建立及预测分析 首先利用自相关图(ACF)和偏自相关图(PACF)来确认模型阶数。根据图2的相关性检验结果,通过观察可以看出杭州游客量序列的自相关系数呈拖尾状,而偏自相关系数有着明显的2阶截尾特征,只有2阶偏自相关系数显著不为零,因此初步判定为AR(2)模型。 ![]() 图2 自相关图(ACF)和偏自相关图(PACF) 引入更多序列自身的滞后期项,或者引入更多的之前系统中的外部干扰项,可以获得更小的AIC值,但是并没有获得显著更小的BIC值,因此经过综合判断选择AR(2)模型。 除Y自身的滞后项外,引入X1至X4的滞后1至5项。为捕捉周末和节假日的影响,提取了两个标记时间的二元变量:是否周末tsat是否节假日tholiday。数据标准化后对Y进行逐步回归,加入显著变量、剔除无效变量,进而建立ARDL模型,不断测试,回归结果如下, 表3 模型参数估计结果 ![]() 注:*、**、***分别表示在0.05、0.01、0.001 的置信水平下显著 AR(2)模型的AIC值为2583.336、拟合优度为0.90,ARDL模型模型的AIC值为2458.009、拟合优度为0.93,比较可知,加入网络搜索数据和时间特征之后模型的拟合优度提高了、AIC值变小了,增强了对游客量的预测能力。 2.XGBoost模型的建立及预测分析 考虑到游客量可能存在非线性关系,复用ARDL模型的特征,构建基于机器学习技术的Xgboost模型,可以用来预测一段时间后的杭州市游客量。将本文构建的模型在测试集上进行预测,基于3.4的模型评价准则,汇总各模型效果如下表4: 表4 各模型效果对比 ![]() 以往后预测3个时间步长为例,采用滚动预测法,测试集上拟合值如图3: ![]() 图3 预测步长3时各模型的拟合结果 对比发现,相比传统的AR模型,含网络搜索数据、时间特征的ARDL模型均方根误差(RMSE) 降低了21.1%,XGBoost模型则降低了41.4%,性能有了显著提升。观察图3得出,多步预测任务中XGBoost模型预测值与真实值非常接近,模型具有良好的预测能力。 五、结论 本文以2024年3月至2025年5月杭州市的实际游客量以及特定关键词在百度和抖音的搜索数据为基础,首先引入经典的ARMA模型,探讨利用时间序列自身的动态相关关系建模。接着,在ARMA模型中引入对游客量可能存在作用的影响因素再进行预测,包括基于网络搜索指数、节假日影响因素、周末影响因素等,构建ARDL模型进行建模。最后,考虑到游客量可能存在非线性特征,构建基于机器学习的XGBoost模型,对这三种模型的预测结果比较分析,得出以下主要结论:第一,网络搜索数据特别是抖音指数的加入,能显著提升模型的泛化能力。与杭州旅游关键词有关的百度搜索量和抖音搜索量确实与游客量数据呈现一定的相关性,加入一些有效的关键词搜索量和时间特征后,ARDL模型比ARMA模型在测试集上预测误差降低了21.1%。第二,XGBoost模型在MAE、RMSE以及MAPE误差上均优于另外两种模型,特别是在处理复杂数据和非线性关系方面具有显著优势。第三,融入网络搜索数据的模型,其核心价值在于能够将当前的搜索量直接转化为对未来1-3天乃至更久游客量的预判,从而为相关管理部门提供更为及时、可靠的决策依据。 参考文献:
[1]Christine Lim&Michael McAleer.A seasonal analysis of Asian tourist arrivals to Australia[J].Applied Economics, 2000,32(4):499-509. [2]Ulrich Gunter,Irem Onder. Forecasting international city tourism demand for Paris:accuracy of uni- and multivariate models employing monthly data[J].Tourism Management,2015,46:123-135. [3]YAO Yuan,CAo Yi.A Neural network enhanced hidden Markov model for tourism demand forecasting[J].Applied Soft Computing,2020,94:106465. [4]孙烨,张宏磊,刘培学,张捷.基于旅游者网络关注度的旅游景区日游客量预测研究——以不同客户端百度指数为例[J].人文地理,2017,32(3):152-160.
基金资助:南京理工大学校级科学研究项目(编号:2024ZXSK0401005) |















“知识+精选”直
基于网络搜索数据
积极情感对平台零
商丘市草莓产业现
双积分政策对新能
RCEP背景下中国对
乡村振兴背景下农