• 工作总结
  • 工作计划
  • 心得体会
  • 述职报告
  • 事迹材料
  • 申请书
  • 作文大全
  • 读后感
  • 调查报告
  • 励志歌曲
  • 请假条
  • 创先争优
  • 毕业实习
  • 财神节
  • 高中主题
  • 小学一年
  • 名人名言
  • 财务工作
  • 小说/有
  • 承揽合同
  • 寒假计划
  • 外贸信函
  • 励志电影
  • 个人写作
  • 其它相关
  • 生活常识
  • 安全稳定
  • 心情短语
  • 爱情短信
  • 工会工作
  • 小学五年
  • 金融类工
  • 搞笑短信
  • 医务工作
  • 党团工作
  • 党校学习
  • 学习体会
  • 下半年工
  • 买卖合同
  • qq空间
  • 食品广告
  • 办公室工
  • 保险合同
  • 儿童英语
  • 软件下载
  • 广告合同
  • 服装广告
  • 学生会工
  • 文明礼仪
  • 农村工作
  • 人大政协
  • 创意广告
  • 您现在的位置:六七范文网 > 其它相关 > 正文

    基于机器学习的小微商铺不良贷款预测

    来源:六七范文网 时间:2023-05-17 19:45:14 点击:

    刁亚静 彭维才

    (巢湖学院数学与统计学院,安徽 巢湖 238024)

    随着双循环经济政策的推动,小商品市场越来越发达,微型/小型商铺众多,这些商铺经常会对短期资金有需求,并且这些贷款业务的回报率相对较高。然而,这些商铺存在风险防御能力较差、本身实力并不雄厚、易于受到宏观经济政策以及市场环境影响等缺点,因而这部分贷款存在较大违约风险,所以针对这部分的贷款申请需要进行风险评估和控制,降低不良贷款比率。近年来,针对小微贷款风控的研究逐渐增多,崔丹、(2018)针对小微企业信用贷款风险控制问题展开论述;
    黄琼、(2018)对银行小微企业信用贷款风险控制进行了探讨;
    常太星(2019)基于我国小微企业信用评估场景,结合学术界信用评估方法的研究成果,为我国小微企业融资机构发展提供了有益建议与合理启发。赵杨(2020)对我国商业银行小微企业贷款以及风险管理现状进行了阐述,并对小微企业贷款风险管理中存在的问题进行了分析,提出防范商业银行小微企业贷款风险的对策。

    随着社会发展、科技进步,大数据相关的数据挖掘、机器学习及人工智能等技术得到了快速发展,尤其是在金融行业,应用相当广泛;
    近年来,在信贷相关领域的研究已经不仅仅局限于传统的规则评估及逻辑回归评估,更为复杂的机器学习模型逐渐被应用到信用评估、信用风险分析、违约风险、风险预测、反欺诈、反洗钱等场景中。此外,本文利用随机森林方法给出了各个特征变量的重要性。赵天傲等(2018)运用XGBoost算法建立信用风险分析模型,运用网格搜索等方法调优XGBoost参数来提高模型效果;
    并基于AUC、准确率、ROC曲线等评价指标,对XGBoost、决策树、GBDT、支持向量机等模型进行对比分析,结果表明,XGBoost模型效果更优,性能更好。吴鹏飞(2019)基于德国信用违约风险的数据,通过使用XGBoost算法来建立信用违约风险判别模型,并利用网格搜索对模型的参数进行调优,并将AUC值与随机森林、GBDT、SVM模型进行了比较,结果表明,XGBoost模型能有效提供模型预测的精度,具有良好的应用价值。李汛等(2019)借助机器学习的方法,以“人人贷”数据作为样本,建立CART决策树模型、SVM模型和KNN模型进行预测并对三种算法进行比较,证实了这三种模型都能够有效预测违约,经比较发现,KNN与CART决策树算法优于SVM算法。刘斌等(2020)就线上贷款数据构造了逻辑回归、随机森林及XGBoost 模型,研究表明,XGBoost 算法在线上贷款风险预测模型中具有更好的效果。阮亮亮(2020)以银行的信贷数据为研究的样本集,在数据预处理和特征工程的基础上,分别运用XGBoost模型和逻辑回归模型预测客户借款违约概率,并用 AUC 作为评价指标;
    实证结果表明,XGBoost模型的预测结果AUC值为0.83,能够较好地预测信用风险。姚玲洁(2020)针对贷款欺诈问题,该文使用随机森林对真实信用卡贷款数据进行特征排序,采用逻辑斯特回归构建信用卡反欺诈预测模型,训练获得的模型正确率较高,可应用于贷款欺诈预测系统中。聂纪予(2020)利用数据挖掘技术,通过对贷款人的各类数据进行分析,利用现有的数据对多个模型进行比较,得出了相对准确性较高的建模方法。小微商铺相关的风控研究相对较少,本文建立的模型可以帮助识别小微商铺贷款申请的风险(程晖等,2018),从而避免资产损失。

    本文收集了《深入解析SAS:数据处理、分析优化与商业应用》(夏坤庄等,2015)书中附录的小微商铺信贷数据,其中有部分指标存在缺失情况,得到6000条借款人的16个指标信息,并从中抽取600条数据作为预留验证集,其余数据用于训练和验证集;
    通过数据挖掘与机器学习技术,如逻辑回归、lightGBM、XGBOOST、随机森林、GBDT、Voting及“GBDT+LR”等算法进行对比分析,通过预留验证集来验证各个模型的效果(变量如表1所示)。

    表1 信用风险度量指标量化处理

    其中,X12是信用等级,“B-”是最差的,“A+”是最好的。

    本项目主要涉及的建模流程中核心技术主要分为两方面,分别是变量降维中的变量聚类方法以及在建模过程中使用的Voting算法。变量聚类能快速有效地进行变量挑选,选出最直接有效的变量,以此来提高运行效率和整体性能,该方式适用于多变量多观测的情况下的变量降维;
    另外一个关键技术是Voting算法,提高模型的准确率及稳定性。

    1.变量聚类

    变量聚类是变量降维过程中一种重要方法,虽然该方法名称叫做变量聚类,但却并不是聚类分析,而是一种基于主成分分析的方法,变量聚类也叫斜交主成分分析。建模变量数量不同,建模过程的耗时也会不同。在实际构建模型时,变量数量可能上千个,当变量数据足够庞大时,这个时候采用变量聚类则可以快速实现变量的降维,然后再基于降维后的变量进行建模。此时,模型的运行效率会大大提升。

    变量聚类方法是依据变量间相关性的强弱程度,将相关性强的变量归为一类,然后在每类中选择一个较典型的变量去代表这一类变量,这样,变量的数量便可以大大降低。同时,由于分类是依据变量间的关系,所以最终选出的变量间的、类间的相关性都弱化了许多。

    那么,如何在变量聚类过程中从每一类选取出能够代表该类的那一个变量,可以使用的做法有如下3种方式。

    其一,考虑让业务经验丰富的人去挑选。

    其二,如果不基于业务,从技术角度,需依据聚类代表性指标“1-R2”进行筛选,聚类代表性指标。1-R2=(1-Rown2)/(1-Rnext2)。其中Rown2表示这个变量与自己的类分量的相关性,值越大越好;
    Rnext2表示这个变量与相邻类分量的相关性,值越小越好。故选择聚类代表性指标“1-R2”较小的变量去代表一类。

    其三,基于技术角度方式,是通过每个类中变量与Y变量的相关性来挑选(卡方值、IV值或者随机森林重要性值等)。

    2.Voting模型

    机器学习的算法有很多,对于每一种机器学习算法,考虑问题的方式都略微有所不同,所以对于同一个问题,不同的算法可能会给出不同的结果,那么在这种情况下,选择哪个算法的结果作为最终结果呢?此时,完全可以把多种算法集中起来,让不同算法对同一种问题都进行预测,最终少数服从多数,这就是集成学习的思路。Voting Classifier(投票)就是集成学习的一种。

    1.变量降维

    传统的变量降维方式较为单一,例如仅仅使用相关性分析,或者IV值或者随机森林重要性等方式,结果相对粗糙并且难以消除变量共线性。

    本文采用“变量聚类+变量重要性”方式进行变量降维。

    (1)变量聚类

    表2 变量聚类表

    从上述结果表可以看出,对自变量进行变量聚类,可以把自变量分成9类,每个类可以挑选一个变量来代表该类,以此来达到快速降维的作用。

    (2)变量重要性

    变量重要性主要有卡方值、随机森林或GBDT重要性和IV值等三种方式,本文主要采用如下两种变量重要性方式。

    表3 变量重要性结果表

    从上表中可以看出,使用了两种重要性衡量指标,分别是随机森林重要性和IV值,二者重要性排序结果基本接近,小微商铺经营时间、小微商铺月租金、小微商铺年营业额等自变量对因变量Y影响较大,申请人学历、申请人是否为本地户籍、贷款原因等影响较小;
    最后一列相关性是通过变量探索得到,辅助进行变量分析。

    (3)变量聚类结合变量重要性

    首先,对涉及的自变量进行变量聚类,划分出一定类别,每个类中变量数目为一个或多个;
    其次,计算每个变量对Y变量的影响程度(随机森林重要性),在每个类中挑选出影响程度最高的变量,作为该类的代表变量。通过该技术,从15个自变量中挑选出9个自变量入模;
    变量聚类情况如表4所示。

    表4 变量聚类情况

    通过表4可知,小微商铺年营业额和小微商铺月租金为一类,从变量重要性大小方面考虑,挑选小微商铺月租金入模,表4中阴影部分为最终入模变量。

    2.模型及模型比较

    本文构建了逻辑回归、决策树、超随机树、随机森林、GBDT、XGBOOST、lightGBM、Voting以及“GBDT+LR”等模型,通过对比模型的准确率、覆盖率及ROC(曲线下面积介于0~1之间)和KS选出最佳模型。一般情况下,准确率、覆盖率、ROC及KS,取值越大越好。从各个指标上看,GBDT和Voting模型表现最好,考虑模型的稳定性,本文选取了Voting作为最终的小微商铺不良贷款预测模型。表5和表6是选取5400个样本作为训练集和验证集(样本分区比为7∶3),600个样本作为预测集(预留验证集)下各个模型的平均验证效果(对比预测结果与实际结果的差距)。

    表5 未采样下的模型比较

    表6 正负样本1∶1欠采样下的模型比较

    本文建立了各种机器学习模型,模型经过多次随机迭代,通过模型验证的精确率、召回率、ROC、KS等指标,发现GBDT及Voting模型在这几个指标上的表现最好,结合模型的稳定性,最终选定Voting模型作为小微商铺不良贷款预测模型。

    3.结论

    本文选取了6000条借款人的16个指标信息,使用python进行全流程建模,通过数据探索及数据分析,了解指标与因变量Y的关系,通过指标与因变量Y的关系发现,金融机构针对小微商铺贷款申请时,应着重考虑小微商铺借贷人的资产收益率X1、信用记录中拖欠次数X3、小微商铺资产负债率比率X4、小微商铺经营时间X6、申请人年龄X10、小微商铺月租金X11、小微商铺面积X13等7个指标,根据对Y的相关性及对Y的影响性最终阴影部分7个变量为我们挑选的变量。一般来说,信用记录中拖欠次数越高,不良贷款比率越高,越容易发展为不良贷款;
    资产收益率越高、小微商铺经营时间越长、小微商铺年营业额越高、申请人年龄越大、小微商铺月租金越高、小微商铺面积越大,不良贷款比率越低,越不容易发展为不良贷款。

    本文主要基于Python软件进行了全流程建模,包括变量探索、变量降维、各种机器学习模型构建、模型验证、模型比较等流程,最终选取了Voting模型作为小微商铺不良贷款预测模型,此时模型的精确率为0.8485,召回率为0.7407,ROC值为0.9595,模型效果表现优异。通过小微商铺不良贷款预测模型,从而使金融机构可以及早发现申请商铺的风险并对高风险贷款申请予以否决,避免资产损失。

    猜你喜欢商铺降维小微混动成为降维打击的实力 东风风神皓极车主之友(2022年4期)2022-08-27小微课大应用数学教学通讯·小学版(2022年4期)2022-05-29降维打击海峡姐妹(2019年12期)2020-01-14外销画中的十三行街道戏曲商铺考中华戏曲(2019年2期)2019-02-06沉浸式剧院——Dear So Cute商铺与咖啡馆现代装饰(2018年12期)2018-12-29小微企业借款人瞭望东方周刊(2018年4期)2018-02-01小微企业经营者思想动态调查邢台学院学报(2016年4期)2016-02-28一种改进的稀疏保持投影算法在高光谱数据降维中的应用火控雷达技术(2016年1期)2016-02-06解决小微金融机构的风控难题创业家(2015年6期)2015-02-27基于特征联合和偏最小二乘降维的手势识别燕山大学学报(2014年1期)2014-03-11

    推荐访问:商铺 不良贷款 机器