大数据助力国库统计分析工作
田丽 中国人民银行高邮市支行 摘要:国库统计分析工作是国库工作的重要构成,能充分反映我国预算执行情况并从中发挥促进和监督作用。如何利用大数据方法改进国库统计分析工作是当前国库前沿研究方向之一。本文借鉴大数据研究手段和思维,利用实证分析方法,预测了国库预算收入的增长趋势,并据此提出了拓展大数据运用的几点建议。 关键词:大数据;分析方法;国库统计分析;实证分析 一、引言 近些年,我国国库为了切实发挥统计分析的反馈和监督作用,将推动货币政策与财政政策的对接和配合作为切入点,基于国库掌握的收支存等一手数据信息,针对财政、货币政策的实施、经济发展等问题进行了深入的分析和探讨,得出了众多的研究成果,为政府职能部门政策的制定供应了大量的参考信息。但国库统计分析工作仍处于一个快速发展、不断完善的过程,在质量、水平和工作成效方面仍有较大地提升空间。伴随着物联网、无线传感器、互联网及云计算等高新科技的广泛推广和应用,数据总量大幅增加,国库统计分析工作也迎来如何处理和应用好海量数据的机遇和挑战。其一,因为大数据具有信息不对称性且极为复杂等特征,因此从海量数据中筛选出具有价值的信息仿佛大海捞针,这无疑增加了统计人员搜集和识别信息的难度;其二,身处大数据时期,国库部门通过现代互联网,可以同税务、财政等部门实现信息共享,数据范围更为广泛,丰富了国库统计分析的内容。因而,我们应尽快开展国库大数据方面的探索与研究。 二、大数据方法与国库统计分析的关系 (一)何为大数据 目前大数据尚无统一定义,字面理解是以多元形式,通过许多来源搜集而来的庞大数据组,往往具有实时性。一些比较认可的说法有:麦肯锡在全球数据分析研究所提出的“大数据”,指无法采用主流数据库软件系统进行搜集、存放、管理和处理的数据集;美国国家科学基金会(NSF)提出,大数据即为“由科学仪器、传感设备、互联网交易、电子邮件、音频视频软件、网络点击流等多种数据源生成的大规模、多元化、复杂、长期的分布式数据集”。从这些说法可以看出,大数据的界定范围极为宽泛,并会随着技术的进步包含更多新兴领域的数据。 (二)大数据分析方法比传统方法有何优势 1.极大地拓宽了信息来源。大数据时代的“大”其一就是大量的可获取数据。传统国库分析能获取的数据量只能称之为样本,而在大数据时代,取样本时的数据量很有可能就是数据本身。 2.信息产生和传递的速度空前。提高传统的国库统计分析质量主要是依靠系统化数据,这些数据的产生也需要时间,具有很强的滞后性。如政府部门上一季度GDP通常会延迟一个月公开,而体现宏观经济发展现状的统计年鉴则往往会延迟约三个月公布。身处大数据的环境中,新信息的产生和传输时刻存在,所以大数据经济模型能够全面收集当前的数据,提升数据处理或预测的时效性,为经济预警及政策出台供应最新的信息和数据。 3.为现实预测提供新的条件。过去的国库统计分析模型选取样本,以假设检验为基本模式。计量经济学以检验因果关系作为基础,而大数据分析则通常将发掘数据的关联性视作主要任务。目前的最大难题之一就在于系统性的宏观经济数据较长的滞后期。大数据技术创造了海量的实时数据,为高效地估算国库资金提供了便利,为现时预测提供了新的条件。 4.预测模型发生变革。实时的大数据也改变了国库统计分析的预测模型。现有的经济预测大多采用截面或面板方程、时间序列等模型加以实现,无法确保参量的完整性。预测结果会随着变量类型、预估方式、模型参数设计、滞后期设置等环节的变化,而出现明显的偏差。大数据技术可以利用完善的数据库,创建多种模型加以分析,大大提高了预测的准确性。 三、利用大数据方法实证分析税收收入增长的数量规律,预测未来的增长趋势 大数据的方法范围十分宽泛,本文由于数据采集和处理上的局限性,仅仅引入大数据的理念和方法,跳出国库数据种类相对单一的局限,跨平台地选取几个主要变量进行国库统计分析工作的实证研究。 (一)模型的估计与调整 国库收入涵盖了债务预算收入、公共预算收入、国有资本经营预算收入、基金预算收入和社会保险基本收入。因为公共预算收入占国库收入的比重超过了八成,并且税收收入占公共预算收入的比重超过了九成,所以,税收收入是国库收入的一大分析要点。 1.我们搜集了江苏省2002-2014年共13年的相关数据(见表1)。 表1 :税收收入模型的时间序列表 注:数据来源于《中国统计年鉴》、《江苏省统计年鉴》 2.利用Eviews软件作线性图分析 观察上图能够发现,X1、X2和Y均呈现出不断增加的趋势,且增速存在变化,而X3产生了水平波动。这反映出变量间并非一定存在线性关系。所以,应该构建回归模型。 lnYn=β0+β₁lnX₁+β₂lnX₂+β₃X₃+μn 3.最小二乘回归 LnYn=-5.358+1.158lnX1+0.138lnX2+0.0000981X3 (0.523) (0.108) (0.089) (0.004) t=(-10.246) (10.721) (1.548) (-0.023) R²=0.999 调整的R²=0.9988 F=3569.34 DW=1.4798 (二)模型检验 1.经济意义检验 分析模型预估结果能够发现,假设其余变量恒定,江苏地区当年的GDP增加和税收收入增加存在正相关性;假定其余变量恒定,全年财政支出增加和税收收入增加存在正相关性;假定其余变量恒定,全年零售品物价指数增加和税收收入增加两者同样存在正相关性。上述结果同理论及经验预测的结果相同。 2.统计意义检验 (1)拟合优度:R2等于0.999,表明模型对样本的拟合结果良好。 (2)F检验:对于H0:H1=H2=H3=0,假设显著性水平∂=0.05,,查阅F分布表,获得自由度为n-k=9以及k-1=3对应的临界值,因为F=3569.33>Fα(3,9),所以原始假设不成立,表明回归方程显著,“财政支出”、“国民生产总值”、“零售品物价指数”等变量对“税收收入”产生了明显的影响。 (3)T检验:通过回归运算,获得的P值分别是0.0116、0.0052、0.0002、0.0412,说明显著,换而言之,在其余解释参数恒定的条件下,也就是说“财政支出”(LNX2)、“国民生产总值”(LNX1)以及“零售品物价指数”(X3)对被解释参量“税收收入”(LNY)均产生了明显的影响。 (三)结论 税收收入会受到GDP即经济增长速度、财政支出与商品零售物价指数的显著影响,财政支出越多,税收收入增长越快,物价指数的增长使得居民消费增加,进而拉动税收收入的增长。利用此预测模型,可以通过人民银行与人大、政府、财税等多部门的信息交换,成为相关部门进行研究、决策的重要参考。 四、完善配套机制,更好地使用大数据分析方法 上述实证分析仅是大数据运用范畴的一个简单实例,实际运用中仍有极广阔的空间供我们进行大数据方法的探索和研究,因此我们建议: (一)构建大数据平台,更好的实现部门之间的联动和数据的开放共享 加强与其他部门的协调配合,不能就数字分析数字,要广泛挖掘财政、税务、统计方面的各类信息数据,充实国库收支分析内容。充分运用互联网手段,促进国库同众多部门的信息交流,同时将数据共享纳入相关机制,对数据的内容和使用范畴加以界定,创建财税数据交互的规范构架,借助创建“大”数据库系统,改善国库分析的质量。 (二)出台相关的法律政策,保护好数据信息的安全 大数据时代产生了大量复杂的数据资源,伴随着人类对大数据技术的广泛运用以及对数据的准确挖掘,怎样保证大数据的安全性、合法性问题迫在眉睫,创建完备的法规体系,以维护国家及个体的数据安全,避免过度披露。不能让大数据危害国家和个人的基本利益。要明确数据从搜集、处理、挖掘、查询等流程上的每个环节的管理、使用范围,对民众的数据知情权和隐私权进行重新的界定。只有规范且科学地使用大数据,才能为国库部门的统计分析提供便利。 (三)重视大数据人才培养,提高数据质量 基层央行国库统计分析人员大都“兼职”,知识水平参差不齐,针对这个不尽合理的现状,国库部门应该,多举办一些高质量的国库统计分析培训课,采用多种形式,请专家、学者具体讲解系统地经济指标、计量模型、数理统计原理等研究工具,帮助国库部门的统计分析工作者全面学习,提升专业素养。国库统计分析还要打破单一的财税领域限制,不拘泥于预算支出、财政税收数据比较分析的范畴,基于国债发行、国库收支、库存资金等原始信息,站在宏观及微观的层面,结合金融、经济运作及行业数据等信息,开展宏观调控实施效果、国库现金管理等方面的分析和研究,以更好地服务于国家宏观决策。 参考文献 [1]中国统计年鉴,2002~2014 [2]江苏省统计年鉴,2002~2014 [3]赵鹏军、李铠.大数据方法对于缓解城市交通拥堵的作用的理论分析[J].现代城市研究2014,(10) [4]Bill Franks.驾驭大数据[M].北京.人民邮电出版社.2012 [5]Mayer-Schoǒberger V,Cuker K.Big Date :A Revolution that will Transform how we will Live,Work and Think[M].盛杨燕,周涛译.杭州:浙江人民出版社,2013 |