基于二元logistic模型的P2P违约分析
王浩博 对外经济贸易大学信息学院 摘要:P2P网络借贷自诞生以来就由于其高风险和高收益而饱受争议,平台的不合规、不透明以及P2P市场投资者较差的风险识别能力给网贷市场增加了许多的不稳定性,基于平台现有的信息对借款人进行违约预测具有十分积极的意义。本文基于二元logistic模型对来自拍拍贷的真实借贷数据进行分析和处理,发现拍拍贷平台的不同标的类型的违约风险存在显著差异;另外借款利率,借款期限等因素和违约风险正向相关,是否通过各项认证和违约风险负相关,年龄和性别对违约因素没有显著影响。 关键词:P2P网络借贷;拍拍贷;logistic回归;违约风险 一、引言 P2P网络贷款平台作为一种新兴的产业形势,自其诞生以来就面临着许多的问题。虽然它利用自身的技术和平台优势帮助资金供需双方直接建立借贷关系,在小微企业融资和个人借贷方面起到了重要的作用,但是它同时也给我们的借贷市场带来了很多的不确定性和风险,严重扰乱了信用市场的交易秩序。这种问题的原因主要来自于借贷双方严重的信息不对称,因为借款人通过平台发布借款需求和相关信息并由平台进行审核,而平台所提供的信息又相当有限,这就导致大多数投资者往往无法充分获取借款人的有效信息,从而无法合理的预判风险。再加上P2P市场上大多数投资者又都是缺乏经验和专业知识的个人投资者,其风险识别和管理能力较差,而法律和社会对于违约的借款者惩罚力度和舆论督导强度又不够大,这就又加剧了P2P网贷的违约风险。大量的资金违约导致平台资金催收困难,资金流停滞,用户提现困难,从而无法维持正常经营。自2015年起,我国P2P问题平台和停业平台数开始激增。截止2019年11月上述平台数目已达6613家,19年平均每月新增问题平台数目43家,而且其数量仍保持着一定速度继续增加。①基于上述背景我们可以看出,P2P借贷的风险管理对于其行业的发展至关重要,有效识别出高风险借款人对于投资者和平台自身都有积极的指导意义。本文以拍拍贷的大量真实数据(投资者可见的)为基础,利用二元logistic模型对影响借款人违约风险的因素进行分析,并找出其中有现实参考意义的几个影响因素,从而在投资者在投资时对其提供有力的帮助,提升其风险辨别能力,提高整个网贷市场的经营效率。 二、文献综述 目前,国内众多学者在P2P违约风险方面已经取得了丰富的研究成果。在对违约风险的影响因素上面,缪莲英等人以Prosper网贷平台的数据为基础,采用逐步回归法对社会资本与网贷违约风险的关系进行实证研究,最终发现在P2P网络借贷中,社会资本的存在能够降低借款者违约风险,通过提高借款者的社会资本,可以充分发挥社会资本的甄别、监督以及社会惩罚作用,从而降低其违约风险发生的可能性。何平平等人采用Probit和Tobit模型定量研究P2P网贷的利差对于借款人违约风险的影响,研究发现利差与借款人违约风险具有正向相关关系,利差越大,借款人违约概率越高;顾慧莹使用WDW上海直营店的运营数据,通过logistic和Cox回归研究了借款人基本信息与其违约风险的关系,发现外地户籍、已婚和历史违约记录与借款违约率和违约速率均正相关,揭示了借款人的个人特征信息具有一定的指导意义;沈玉溪通过决策树建立P2P风险评估模型对影响借款人违约风险的因素进行分析并排序,发现借款收入比、信用等级、借款期限、借款利率和住房情况是前5个影响借款人违约风险的因素;苏亚以人人贷的真实交易数据为基础研究借款人的软信息(描述性文本中的拼写错误)对于其违约风险的作用,结果表明借款人的软信息对借款人违约风险有显著正向作用。 在风险评估和预警的方法上面,除了传统的logistic回归和Cox回归之外,决策树(C5.0)、支持向量机(SVM)、BP神经网络等数据挖掘算法也被引入了进来。涂艳将决策树、随机森林、神经网络、最邻近值等算法和传统的回归模型在二分类预测的准确度上进行了对比分析,发现大部分机器学习算法预警准确率较高,对P2P网络借贷违约预警具有较强的适用性,其中以随机森林效果最优。之后众学者通过集成思想和引入优化算法对P2P风险预警模型进行进一步的改进,丁岚等人以逻辑回归、决策树作为初级学习器,以SVM支持向量机作为次级学习器,构建了基于Stacking集成策略的评估模型来预测P2P网贷中借款人的违约风险;丁越通过遗传算法对传统Logistic模型进行优化,从而使得模型预测的准确率、精确率和召回率取得了显著的提升;胡忠义在K-均值聚类的基础上用投票法和学习法对基分类器进行动态集成,使其预测的准确度较之于先前的静态集成方法又有了一定的提升。 三、变量选择与数据处理 拍拍贷是我国第一家成立的P2P平台,至今已有12年的运营历史,且成功在纽交所上市。拍拍贷在交易规模、平台人气、预期收益率以及运营的合规性和透明性等方面都取得了不错的成绩,是我国P2P平台中比较有代表性的平台,选取此平台的标的数据有比较好代表性和指导意义。我们从拍拍贷网站上爬取了成交时间从2015年1月初到2017年1月底的292532支散标的信息,包括该散标的基本信息(标的号、借款金额、借款利率、借款期限、信用评级、借款类型),借款人的基本信息(借款人姓名、年龄、是否首为次标的,手机、学历、征信等认证情况),借款人的历史信息(历史成功借款次数、历史借款额、历史正常还款期数、历史逾期还款期数)以及该标的最终状态(已还清、逾期、正常还款中)。 为了达到我们的研究目的和二元logistic的变量均需为数值型数据的要求,我们先对数据进行预处理。1.首先我们将正在还款中的十多万条数据删除,因为该标的尚未结束,我们不知道借款人的还款情况,我们的因变量是用0,1表示的二元变量,所以仅需要已还清和逾期这两类数据。2.由于众多数据中逾期的数据仅为九千多条,而已还清的数据则有十几万条,两边占比严重不均,这将会产生模型对逾期贷款的预测准确度极低而综合准确度极高的情况,所以我们用R语言sample函数随机抽取一万条标的状态为已还清的数据使其比例接近一。3.我们需要将原数据非数值型数据转换成数字,比如初始评级、借款类型等,分别用数字1、2、3等代替。4.将年龄、借款金额、借款期限等数据离散化,从而避免极端值对拟合结果产生影响。5.缺失值和错误值处理,数据中有少数值取值异常,由于我们数据量充足,所以我们将其筛选出来并直接删除。 基于二元logistic在通过离散型自变量对二元因变量进行预测时的优良性能和准确度,我们选取其作为我们的模型进行分析。因变量Y为该标的的最终状态,0表示该标正常还清,1表示其逾期还款或为还清。X1,X2,X3,X4,X5......X15则表示对借款人是否按期还款的影响因素,β1,β2,β3.....βi表示权重,P表示概率借款人预期或无法偿还的概率,我们有概率P(Y=1|X)=exp(βiXi)/1+exp(βiXi),同理可得P(Y=0|X)=1/1+exp(βiXi)。我们得到概率值后往往会设定一个阈值来对样本进行分类(比如0.5),当概率值大于该阈值时归为一类,小于0.5时则归为另一类。 表1 P2P违约模型变量指标体系
研究假设 结合苏亚和黄文彬等人的研究,在我们从拍拍贷获取的借款人基本信息、借款人历史借贷信息和该标的基本信息我们提出以下几条假设: (一)标的基本信息 标的的基本信息包括标单号、借款金额、借款时期以及借款利率、平台评级、标的类型等,这些数据往往是投资人最直接关注到的信息,也是各个网站都直接公开的数据。鉴于前人对金额、利率、平台评级对违约率的影响已经有所研究,本文则重点关注拍拍贷中不同类型标的对于其违约情况的影响,拍拍贷将其借款分为4类。其中拍拍贷的应收安全标,是一种针对网站借出者推出的产品(即发标人必须同时是网站的投资者),用户有足够的待收款才有机会发布,该标发布条件严格且有一定的应收款保障;电商标是针对电商经营者的发标,借款人的网上店铺达到一定等级以后可以申请额度;APP闪电是一种可以在短期内快速满标的小额标的类型,拥有借款周期短、满标用时短等特点;然后是正常借款类型的普通标,该标主要针对工薪阶层、私营业主和学生。我们认为上述几种标的的风险程度有显著差异,所以其违约情况夜应有所不同,提出假设一如下:(在这里我们以普通标为参考设置虚拟变量t1,t2,t3以研究不同类型标的风险差异) H1:不同借款类型的标的违约风险有显著差异 (二)借款人基本信息 借款人基本信息是对借款人自身实际情况的描述,包括借款人的年龄、性别、学历、是否通过户口认证、是否通过征信认证、是否进行手机认证等。随着我国个人征信制度的不断完善,我国公民的信用意识也不断随之增强,个人征信报告的存在(即征信认证)势必会对借款人的违约行为产生一定的影响,同样手机认证、户口认证等一系列认证均可以使借款人暴露更多的自身信息,这些信息会加重其违约行为产生的后果,所以我们认为上述认证会使其违约的概率减小。 H2:通过手机、户口、征信等一系列网贷认证的借款人违约概率偏低 (三)借款人历史借贷信息 借款人之前的借款还款情况可以给投资人提供很大的参考,而对于首次借贷的人来说他的信用表现投资者在投资时是没有数据的,我们认为这种未知性会加大借款人的违约概率,而需要多次借款的借款者因为有下次借款的需求,往往可能更注重自身的信用管理;对于非首次借款的借款人来说,其以往的逾期期数越多(即逾期率高),说明其越不注重自己的信誉状况,违约概率则会越高,于是我们提出以下两个假设 H3:历史成功借款次数较多的借款人违约概率越低 H4:逾期率越高的人违约风险越高 四、实证分析 由于模型中的变量数量较多,为了避免其对回归结果产生负面影响,我们在回归之前使用SPSS19.0对其进行多重共线性检测,得到的共线性检验结果如表2 所示。通过方差膨胀因子VIF值我们可以看出,各变量的VIF值均小于10,可决系数R方小于0.1,说明我们可以认为各变量之间不存在多重共线性关系。 表2 多重共线性检验
将X1至X17作为因变量,标的状态作为因变量带入到二元logistic模型中用向前步进(Wald)法进行回归,将得到的结果输出得表3(表中仅显示通过显著性检验的变量)。由结果可知,历史成功借款总额、性别、借款金额、历史成功借款次数未通过检验,而年龄在显著性为1%的水平下也无法通过检验。上述结果表明这几项因素对于借款人是否为违约的影响不大,借款人的违约风险并不因为年龄或者性别而呈现出显著差异,所以我们投资人在选择标的时不应该存在年龄或者性别上的刻板印象。历史成功借款总金额和历史成功借款次数也未通过显著性检验,说明借款人历史的借款行为并不会对违约风险产生较大影响,其频繁借款不见得他的违约风险低,其从未借款也不见得其违约风险高,这说明我们的假设3是不正确的,频繁借款者可能由于自身资金问题比较严重等原因反而无法保证按期正常还款。 表3 二元logistic回归结果
然后我们讨论显著性检验的指标以及验证我们在上文中提出的剩下几个假设。从借款标的基本信息来看,该类指标对违约风险影响较为明显,其中借款利率和借款期限与违约风险呈正相关,即借款期限越长,借款利率越高,违约风险就约高。这不难理解,标的的借款时间越长、利率越高,那么借款人的借款成本就越重,其违约的可能性也会增加。初始平台评级与违约概率显著正相关,由OR值可以看出,指标每高一级违约风险增加53.8%,说明平台的评级较为合理,对标的风险情况有一定程度的指示作用,对个人投资者来说具有一定的参考价值。下面来验证假设H1,我们通过设置虚拟变量来研究不同类型标的的违约风险情况,由下表可以得知上述各变量在5%水平均通过显著性检验,说明不同标的类型的风险有显著不同。其中借款类型t1表示应收安全标的违约风险是普通标类型的0.239倍,电商标的违约风险是普通标的0.298倍,而APP闪电标的风险是普通标的0.451倍,那么我们可以得到下列排序,即不同标的违约风险由大到小为:普通标>APP闪电>电商>应收安全标。 表4 不同标的类型回归结果
从借款人基本信息来看,征信认证、学历认证、视频认证、户口认证、手机认证的系数均为负,说明有认证的借款人违约概率要低于未认证的借款人,这也验证了我们的假设二。其中是否通过手机认证的差别最为明显,通过手机认证的借款人的违约概率是未通过认证的借款人的0.47倍,然后是户口和征信认证,通过与未通过违约比在0.65左右,学历和视频认证结果在0.84左右;在借款人历史表现中逾期率与违约概率显著正相关,而且其影响程度在上述指标中是最大的,逾期期数占总还款期数的比例越高,说明其多次逾期信用水平较低,有较好的违约风险。 为了避免我们的样本抽取对回归结果产生影响,我们重新更换样本,从十几万条已还清的标的中重新抽取一万条数据组成新的数据集再次带入到我们的二元logistic模型中,得到的结果和之前的结果如下表所示。左边打星号的是我们的新样本的回归结果,右边的是原样本样本结果。对比两次结果可以发现二者之间无显著差异,说明回归结果稳健性较好。 表5 两样本回归结果对比
五、结论与建议 通过数据的采集以及模型分析我们得到了以下几条结论:1.拍拍贷平台不同的标的类型的违约风险不同,保守型个人投资者可以优先选择安全标或者APP闪电标来投资2.通过一系列认证的借款人往往有着更小的违约概率,其中是否手机、户口和征信认证这三项认证最为关键,投资者可优先观察这三种指标来选择标的3.对于历史逾期率较高的借款人,投资人应尽量避免投资其发起的散标,因为该类借款违约风险比较高4平台的信用评级能较好吻合标的风险状况,投资人可以将平台的信用评级作为一项重要参考。 结合我国P2P发展现状和本文研究对我国网贷行业提出以下几条建议:1.我国P2P平台应进一步加强经营的合规性和规范性,积极发挥其在技术和平台上的优势以帮助借贷双方减少信息不对称。加强对借款人的信息采集和审核力度,完善平台的风险评级制度,根据交易规模和自身保证金数量合理发标。加强对高利率和长期借款的风险把控,向投资人及时反映资金还款动态。2.加强各平台之间的信息互通,可以结合区块链技术实现行业内的信息有效交流与共享,以防止个人接待人拆东墙补西墙的行为发生。3.积极将个人网贷信息接入个人征信系统并反应到个人征信报告之中。加大对个人借款者网贷违约的惩罚力度,通过社会的力量增加违约者的违约成本从而起到降低违约风险的作用。P2P自产生以来发展至今,带给我们的不仅是融资渠道的拓宽还有对正常市场秩序的扰乱,随着政府的不断发力和市场热度的消退,大量P2P平台面临停业、转型的困境。如若不能建立完备的风险控制体系、承担相应的社会责任,被市场淘汰是史之必然。 注释: ①文中数据来源于网贷之家。 参考文献: [1]缪莲英,陈金龙.P2P网络借贷中社会资本对借款者违约风险的影响——以Prosper为例[J].金融论坛,2014,19(03):9-15+66. [2]何平平,蒋银乔,胡荣才.网络借贷P2P:利差是否包含违约风险隐含信息?——来自人人贷交易数据的实证分析[J].金融经济学研究,2016,31(03):27-37. [3]顾慧莹,姚铮.P2P网络借贷平台中借款人违约风险影响因素研究——以WDW为例[J].上海经济研究,2015(11):37-46. [4]沈玉溪,徐浩.P2P网贷借款人违约风险评估——基于决策树的研究[J].经营与管理,2018(09):13-15. [5]苏亚,成春林.P2P网贷借款人违约行为影响因素的实证研究[J].金融发展研究,2017(01): 70-76. [6]涂艳,王翔宇.基于机器学习的P2P网络借贷违约风险预警研究——来自“拍拍贷”的借贷交易证据[J].统计与信息论坛,2018,33(06):69-76. [7]丁岚,骆品亮.基于Stacking集成策略的P2P网贷违约风险预警研究[J].投资研究,2017,36(04):41-54. [8]胡忠义,王超群,陈远,吴江,鲍玉昆.基于多分类器动态集成的P2P违约风险评估[J].管理学报,2019,16(06):915-922. |