基于随机森林模型的中小微企业信用风险评价研究
黄菲1 马庭瑞1 王学军2 农凯1 梁媛1(1.广西壮族自治区标准技术研究院,广西 南宁 530299;2.广西财经学院,广西 南宁 530003) 摘要:中小微企业在中国经济中扮演着重要角色,对外贸增长有着重要贡献。企业信用度是衡量企业在经济活动中信用状况的关键指标,对企业的市场声誉、融资能力和业务拓展等方面有着直接影响。本研究采用随机森林模型对中小微企业信用风险进行评估,并构建了评价指标体系。通过对指标贡献度的排序分析,找出对企业信用影响较大的因素。研究结果有助于在评估中小微企业信用等级时更加关注这些关键指标。 关键词:中小微企业;信用风险;评估指标体系;随机森林;特征贡献度 一、引言
近年来,以中小企业为主的民营企业在中国经济发展中发挥了重要作用,已成为中国第一大外贸经营主体,对外贸增长的贡献度超过一半。这些企业遍布各个细分领域,专注于产业链配套,通过促进大中小企业融合、产学研协同,形成了完整的产业生态,为维护产业链供应链稳定和竞争力提供了重要支撑。同时,中小企业也为民众提供了丰富的物质产品和服务,并发挥着吸纳和调节就业的作用。在中小企业发展良好的地区,就业更加充分,经济更加活跃,人民生活更加富裕[1]。 企业信用度是衡量企业在经济活动中信用状况的关键指标,反映了企业履行经济承诺的可靠性,包括偿还债务、支付租金、缴纳税款等方面的能力。企业信用度的高低对其市场声誉、融资能力和业务拓展等方面有着直接影响[2]。首先,信用是企业参与市场经济的基石,良好的信用度有助于建立稳定的业务关系;其次,信用评级有助于企业提升管理水平,发现并改进管理中的薄弱环节;最后,信用评级还能帮助企业降低融资成本,提高融资效率,同时在招投标等活动中获得竞争优势[3]。 本文以我国中小微企业为研究对象,基于12项核心指标构建了信用风险评价体系,并进一步依据信用评分将其信用风险细分为三个等级。通过运用随机森林模型进行深入建模分析,对各个指标的影响力进行了量化排序,旨在揭示对企业信用状况产生显著影响的关键因素。这一研究结果对于在评估中小微企业的信用等级时,能够更精准地把握并着重考量这些至关重要的指标具有重要指导意义。 二、相关工作
目前,企业信用风险评估研究主要围绕两个方面展开:一是构建合理且全面的评估指标体系,二是选择合适的评价方法。随着各种实际分类问题的研究深入,这些方法模型也逐渐完善。在评价指标体系方面,其发展呈现出从低维度向高维度的演变。评估指标的数量和复杂性都在不断增加,以更好地反映企业的各项信用风险因素。这使得评估更加全面,避免了单一指标可能带来的偏见。在评价方法的选择上,从最初的主观判断,逐渐发展到客观的数据驱动方法。随着大数据和人工智能的崛起,传统的统计学方法已经无法满足复杂的信用风险评估需求。因此,越来越多的研究开始采用机器学习方法,特别是集成算法,如随机森林模型[4]。 周二磊等人[5]鉴于企业信用风险数据存在显著的不平衡性,研究采用了改进的SMOTE过采样方法来处理此类数据,以防止少数类样本过度集中,增强模型对于小概率事件的预测能力。对河南省50万家企业的80个信用风险指标进行深入分析,研究选取了多元化的特征维度,涵盖了企业基本信息、动态经营、监管行为、社会评价等多个层面,旨在构建更为科学和精准的企业信用风险预警模型。 马梦晨[6]围绕上市公司的信用风险评估展开,特别是在中小企业领域应用随机森林方法进行信用评级的研究。结合中小企业特性,构建了一套包含营运能力、盈利能力、偿债能力、现金流量、成长能力和企业自身情况六大维度共28个二级指标的信用风险评价体系。为克服数据不平衡问题,采用了SMOTE过采样技术。赵亚等人[7]不仅整合了财务指标,还首次将公司治理、企业诚信情况和外部环境等非财务指标纳入评估体系。通过引入随机森林方法,建立了新的信用风险评估模型,旨在克服传统模型过拟合的问题,增强预测准确性。 总的来说,信用风险评价一直是国内外学者和企业界关注的焦点。随着经济的发展和市场的复杂化,评估对象和评估方法的多样性也日益显现。本文基于随机森林模型对中小微企业的信用风险进行了深入研究,构建了一套全面、科学的信用风险评价指标体系。通过实证分析,找出了对企业信用影响较大的因素,为中小微企业的信用风险管理提供了有益的借鉴。 三、中小微企业信用风险评价指标体系构建
在中小微企业信用风险评价中,构建一个科学、合理的评价指标体系至关重要。这一体系不仅需要确保评估结果的准确性,还需要减少评估人员主观因素对评价结果的影响。因此,在指标的选择上,必须坚持独立性、客观性和可获得性的原则[8]。 考虑到中小微企业的特点,本文特别关注了企业的公司基本信息、公司规模与效益、员工福利与稳定性和公司荣誉与认证。这些指标不仅反映了企业的当前经营状况,也预示了未来的发展趋势,为信用风险评估提供了全面的视角。具体来说: 1.公司基本信息:反映了企业的基本状况,包括注册资本、资本组织形式、工商成立时长、一级大类特征,这些信息对于判断企业的经营规模、经营范围、发展历程等方面具有重要意义,可以为政策制定和投资决策提供基础数据。 2.公司规模与效益:反映了企业的经营规模和经营效益,包括企业规模得分和企业效益得分特征,有助于了解公司的经营状况和盈利能力。对于判断企业的市场竞争力、盈利能力和发展前景等方面具有重要意义。 3.员工福利与稳定性:反映了企业的员工福利和稳定性,包括社保稳定性得分和公积金稳定性得分特征,体现了企业对员工的福利待遇和稳定性,这对于判断企业的员工满意度、员工稳定性等方面具有重要意义。 4.公司荣誉与认证:反映了企业的荣誉和认证情况,包括战新产业类别、高新技术企业、市级龙头企业和劳动保障诚信示范用人单位特征,这些荣誉和认证体现了企业在特定领域的表现和影响力,对于判断企业的创新能力、质量水平、社会声誉等方面具有重要意义。 四、研究方法
1.逻辑回归
逻辑回归(Logistic Regression)作为一种广泛应用的分类算法,在解决分类问题中展现出其独特的判别模型特性。这一算法之所以能在众多分类算法中脱颖而出,得益于其强大的预测能力和易于理解的数学原理。 逻辑回归的核心思想在于将线性回归模型与Sigmoid函数巧妙结合。线性回归模型通过拟合自变量与因变量之间的线性关系,为预测提供了基础。然而,线性回归的输出是连续的实数值,而分类问题往往要求输出离散的类别标签。这时,Sigmoid函数便发挥了关键作用。Sigmoid函数能够将连续的实数值映射至(0,1)区间,从而实现对类别概率的估计。 在逻辑回归中,通过训练模型参数,使得模型能够准确地将输入数据映射到相应的类别概率。此外,逻辑回归还具有易于实现和解释的优点。其模型参数具有明确的含义,可以通过分析参数值来理解自变量对因变量的影响程度。这使得逻辑回归在实际应用中得到了广泛的关注和应用。无论是在金融、医疗还是其他领域,逻辑回归都能够帮助研究者们从大量数据中挖掘出有价值的信息,为决策提供有力支持。 逻辑回归作为一种判别模型,在解决分类问题中发挥着重要作用。其通过将线性回归与Sigmoid函数结合,实现了对类别标签的有效预测。同时,逻辑回归的易实现性和易解释性也使得它在各个领域中得到了广泛应用。 2.决策树
决策树作为一种监督学习算法,在机器学习和数据挖掘领域占据了重要地位。其核心思想在于通过构建树状模型来模拟人类进行决策的过程,从而实现对数据的分类或回归预测。决策树以其直观、易于解释的特性,受到了广大研究者和应用者的青睐。 在决策树的构建过程中,算法会不断地将数据集划分为更小的子集,每个子集都对应着树中的一个节点。内部节点通常代表数据集中的一个特征,而分支则代表了该特征的不同取值。通过不断地划分,算法最终会达到叶节点,即预测的类别或数值。这种层次化的结构使得决策树能够清晰地展示决策过程,便于理解和分析。 在构建决策树时,算法需要依据某种指标来选择最优的特征作为划分依据。这些指标通常用于衡量特征对数据集分类或回归的贡献程度。例如,信息增益是一种常用的指标,它通过比较特征划分前后信息熵的变化来评估该特征的重要性。信息增益越大,说明该特征对数据集的分类贡献越大,因此越应该被选为划分依据。此外,基尼系数和基尼指数也是常见的决策树划分指标,它们分别应用于CART算法中,用于评估特征的不纯度或不确定性。 决策树算法具有一系列优点。首先,其直观性和易于解释性使得非专业人士也能够理解模型的决策过程。这对于实际应用中的模型解释和结果展示非常有利。其次,决策树能够同时处理数值型和类别型特征,无需进行复杂的数据预处理。此外,决策树还具有较好的鲁棒性,对缺失值数据也具有一定的处理能力。最重要的是,决策树算法能够自动捕捉特征间的交互作用,从而得到更为准确的预测结果。 然而,决策树算法也存在一些局限性和潜在问题。首先,决策树算法在构建过程中可能容易过拟合,特别是在数据存在噪声时。过拟合会导致模型在训练集上表现良好,但在测试集或实际应用中性能下降。为了解决这个问题,通常需要采用剪枝等技术来简化模型结构,提高泛化能力。其次,决策树在某些数据集上的计算量可能较大,特别是在特征维度较高或数据集规模较大时。这可能导致算法运行时间较长,影响实际应用中的效率。为了解决这个问题,可以采用一些优化算法或并行计算技术来提高计算效率。此外,决策树的局部最优决策可能无法保证全局最优,这可能导致在某些情况下模型的预测性能受到限制。最后,决策树的树结构可能过于复杂,导致解释性降低。在实际应用中,需要根据具体情况对模型进行简化或解释,以便更好地理解和应用模型。 3.随机森林
随机森林算法,作为机器学习领域的一种重要集成学习方法,通过巧妙地组合多个决策树,成功构建出了更为强大且稳健的预测模型。这一算法的核心思想在于利用多个弱学习器的组合来形成一个强学习器,从而实现对复杂数据的精确预测。 在随机森林算法中,每个决策树都是在不同的自助采样法(bootstrap)生成的样本和特征子集上独立构建的。这种自助采样法是一种有放回的抽样方法,即从原始数据集中随机抽取样本,每次抽取后都将样本放回,以确保每个样本都有被多次抽取的可能性。通过这种方式,每个决策树都能获得一个独特的数据子集,从而保证了其独立性和差异性。 此外,随机森林算法在构建决策树时,还采用了特征随机选择的方式。具体来说,对于每个新数据子集,算法会随机选取一小部分特征(远小于特征总数)来进行建模。这种特征随机性不仅进一步增加了不同决策树之间的差异,还有助于降低模型对特定特征的依赖,从而提高其泛化能力。 在预测阶段,随机森林算法会利用每棵决策树对新的测试样本进行预测,并通过投票机制(分类问题)或平均值(回归问题)来得出最终预测结果。这种集成策略使得随机森林算法能够充分利用各个决策树的优点,弥补其不足,从而实现对复杂数据集的精确预测。 随机森林算法在机器学习领域具有诸多显著的优点。首先,由于它集成了多个决策树,使得其预测准确性相较于单一决策树有了显著提升。这种集成效应使得随机森林能够在处理复杂、非线性关系的数据集时表现出色,从而在诸多实际应用中取得了良好的效果。 其次,随机森林算法对异常值和噪声的鲁棒性表现出色。由于每个决策树都是基于不同的样本和特征子集构建的,因此即使数据中存在一些错误或偏离常规的值,这些异常值也不太可能对所有决策树都产生显著影响。因此,随机森林算法能够在一定程度上抵抗异常值和噪声的干扰,保持稳定的预测性能。 此外,随机森林算法还擅长处理高维数据集。在构建决策树时,算法只选择部分特征进行建模,这不仅降低了模型的复杂度,还有效避免了维度灾难的问题。这使得随机森林能够在处理高维数据时保持较高的效率和准确性,成为处理大规模数据集的有力工具。 与其他机器学习算法相比,随机森林算法无需对特征进行标准化或归一化处理。这是因为随机森林算法在构建决策树时采用了基于特征的随机选择策略,使得模型对特征的尺度不敏感。这一特性大大简化了数据预处理工作,降低了数据处理的复杂度和成本。 随机森林算法作为一种集成学习方法,在机器学习领域具有广泛的应用前景和实用价值。其通过组合多个决策树来形成强大且稳健的预测模型,不仅提高了预测准确性,还增强了模型的鲁棒性和泛化能力。此外,随机森林算法还具有处理高维数据集和简化数据预处理工作的优势,使其成为机器学习领域的一种重要工具。未来,随着数据规模的不断扩大和复杂性的增加,随机森林算法将在更多领域发挥重要作用,为解决实际问题提供有力支持。 五、实验结果及分析
1.数据来源
本文所使用的数据集来源于网络开源,涵盖了与中小微企业相关的各种特征,帮助从多个维度理解企业的状况。数据集包含了1958家企业的特征及信用评分,将信用评分小于等于50标记为高风险、在50到80之间标记为中风险和大于等于80标记为低风险。其中低风险企业有108家、中风险企业有1546家以及高风险企业有304家。 2.数据预处理
为了统一数据的量纲,将注册资本、企业规模得分、企业效益得分、工商成立时长、社保稳定性得分和公积金稳定性得分特征按照最大最小归一化[9],将每个特征的值都转换到0到1之间,这样不同特征之间的数值大小就不会影响模型的训练和预测结果。同时,这种方法也保留了原始特征之间的相对比例关系,避免因为不同特征数据的尺度不同而导致某些特征对结果的影响更大,公式如下: 将资本组织形式、一级大类、战新产业类别、高新技术企业、市级龙头企业和劳动保障诚信示范用人单位特征进行One-Hot编码,One-Hot编码是一种常用的数据编码方式,它将每个离散的取值映射为一个唯一的二进制向量。 在逻辑回归模型中,使用L2正则化,正则化强度为1.0,使用LBFGS优化器,最大迭代次数为100。决策树模型中,使用基尼指数作为分裂节点的评价标准,没有最大深度限制,最小分裂样本数为2,最小叶子节点样本数为1。随机森林模型中,使用100棵决策树,以基尼系数作为划分标准,无最大深度限制,最小分裂样本数为2,最小叶子节点样本数为1。 硬件配置:11代Intel Core i9-11900K CPU,Windows 11操作系统,64GB的RAM和NVIDIA GeForce RTX 3080 GPU。 3.实验结果
对于多分类的分类任务来说,一般使用准确率(Accuracy)、精准率(Precision)、召回率(Recall)、F1值(F1 Score)作为模型评判的主要指标[10]。上述的取值范围都在0-1之间,值越大说明模型性能更佳,但不同评判指标的计算方式和含义不一样,需要综合考虑,本文主要关注F1值,因为它在类别分布不均衡时、能够反映出模型的整体性能、相对稳定和直观且易于理解的特点。将数据预处理后的数据集打乱并按照8:2的比例划分训练测试集,将测试集实验结果作为模型评判的标准,各指标如表1所示。 表1 各模型在测试集评估结果 首先,逻辑回归模型在预测中小微企业信用风险方面具有较高的准确性和精确性,但在召回率上相对较低,这意味着该模型可能在识别高风险企业时存在一定的遗漏。其次,决策树模型的表现有所提升,相较于逻辑回归,决策树模型在保持较高精确度的同时,提升了对高风险企业的召回能力,从而使得综合性能得到明显改善。 最后,随机森林模型取得了最佳效果,在处理中小微企业信用风险评价问题上具有显著优势,它不仅能够更准确地预测企业的信用状况,而且在识别高风险企业方面的表现尤为出色,避免了大量的误判和漏判,从而体现出更高的综合性能和实用性,对于实际应用具有重要的参考价值。 4.结果分析
在对中小微企业的信用风险评价研究中,随机森林模型所进行的特征重要性分析揭示了各特征之间的相对权重关系[11]。这一系列权重值不仅彰显了模型在预测信用风险过程中各个特征所发挥的关键作用程度,而且为政策制定的相关人士提供了极具价值的参考依据,有助于他们更深入地理解并精准地评估企业的信用状况。随机森林模型特征重要性如图1所示。 图1 随机森林模型特征重要性 从总体上看,公司规模与效益和员工福利与稳定性是中小微企业信用风险评价中最为重要的两个特征。这两个特征都与企业的经济实力和运营稳定性直接相关,是评估企业信用时不可忽视的关键因素。相比之下,公司基本信息和公司荣誉与认证虽然也有一定的重要性,但相对较为次要。具体来说: (1)公司规模与效益:这一特征的重要性得分最高,说明企业的规模和经济效益是评估其信用风险时最重要的因素。这是因为企业的规模和经济效益直接决定了其偿债能力和经营稳定性。规模较大、效益较好的企业通常拥有更强的经济实力和抗风险能力,因此信用风险相对较低,这一特征应被高度重视。 (2)员工福利与稳定性:员工福利与稳定性在中小微企业信用风险评价中的重要性也非常高,这反映了企业文化和内部管理的重要性。一个注重员工福利、员工流失率较低的企业通常能够保持较高的运营稳定性和工作效率,从而降低信用风险。 (3)公司基本信息:虽然公司基本信息在评估中小微企业信用风险时也有一定的参考价值,但其重要性相对较低。这可能是因为这一特征包含的信息较为基础,如成立时间、注册资本等,对于信贷决策来说,其预测能力相对较弱。然而,这并不意味着可以完全忽视这一特征,因为在某些情况下,企业的基本信息仍然可能对信用评估产生一定影响。 (4)公司荣誉与认证:公司荣誉与认证在中小微企业信用风险评价中的重要性相对较低。这可能是因为荣誉和认证虽然能够反映企业在某些方面的实力和信誉,但在实际信用风险评估中,其预测能力可能受到其他更直接因素的影响。尽管如此,企业荣誉和认证仍然是评估企业信用时的一个参考因素,特别是在其他信息不足的情况下。 六、结束语
本文采用随机森林模型对我国中小微企业的信用风险进行了深入评价,构建了包含12个指标的信用风险评价指标体系,并通过实验验证了随机森林模型的有效性和优越性。通过对多个核心评价指标的对比分析,相比于传统的逻辑回归模型和决策树模型,随机森林模型在准确率、精确率、召回率以及F1值等多个维度上均展现出更为优越的性能。充分证明了该模型在有效识别高风险中小微企业方面具有极高的敏感性和稳定性,能够在复杂商业环境中全面、准确地评估企业的信用状况。 此研究的结果能够帮助金融机构、政府部门及社会各界更有效地监控与管理中小微企业的信用风险,有利于优化信贷资源配置,降低金融系统风险,同时也可引导企业加强自身信用建设,进一步推动中小企业健康发展。在实际应用中,该模型可以为金融机构、政府部门和投资者等提供重要的参考依据,帮助他们更加准确地评估中小微企业的信用风险,从而做出更为合理的信贷决策和投资选择。
参考文献:
[1]姚定俊,顾越,陈威.基于RF-LSMA-SVM模型的中小微企业信用风险评价研究[J].工业技术经济,2023,42(7):85-94. [2]王沈宇.我国中小企业信用风险评估模型研究[D].哈尔滨:哈尔滨工业大学,2022. [3]彭国兰.随机森林在企业信用评估中的应用[D].厦门:厦门大学,2007. [4]彭国兰,林成德.基于随机森林的企业信用评估模型[J].福州大学学报(自然科学版),2008(S1):153-156. [5]周二磊,陆进宇,马江涛等.基于随机森林算法对企业信用信息中预警特征识别的研究[J].中国信息化,2023(6):57-60. [6]马梦晨.基于随机森林方法的中小企业信用风险评估研究[J].特区经济,2023(1):141-144. [7]赵亚,李田,苑泽明.基于随机森林的企业信用风险评估模型研究[J].财会通讯,2017(29):110-114+129. [8]陈锐.科技型中小企业信用风险评估模型研究[D].蚌埠:安徽财经大学,2022. [9]林成德,彭国兰.随机森林在企业信用评估指标体系确定中的应用[J].厦门大学学报(自然科学版),2007(2):199-203. [10]郑黎明.面向信息技术行业的中小企业信用评估研究[D].北京:北京化工大学,2023. [11]马凯.基于随机森林模型的国有企业信用债券违约风险预警研究[D].南昌:江西财经大学,2023.
基金项目:2023年度广西壮族自治区市场监督管理局科技计划项目《基于自编码神经网络的企业活跃度与企业信用风险判断研究》(项目编号:GXSJKJ2023-9);人工智能赋能广西体育高质量发展研究(22FTY019) |