为了控制信贷风险,需要有效的方法来正确识别信贷违约用户,即解决信贷分
类问题。然而,大部分信贷数据集为信贷不平衡数据集,因而控制信贷风险的关键在于解决信贷不平衡分类问题。
研究背景与研究意义
研究背景
对于信贷风险的研究,重点在于通过合理有效的技术手段来判断某用户的某笔消费信贷业务是否会发生信贷违约,即对信贷违约事件发生的可能性进行度量。银行等相关机构在审批消费信贷业务时正需要这样的技术手段来审核用户的信用,从而降低或规避信贷风险。因此,为了正确识别出信贷违约用户,需要对用户进行分类,即构建有效的分类模型来处理信贷分类问题。实际上,银行等相关机构对用户进行分类时往往是将其归为**信贷履约用户或者信贷违约用户**,因而分类模型解决的主要是二分类问题,即**本文所指的信贷分类问题特指二分类问题。**
分类模型作为一种能够根据用户提供的信息对其信贷违约情况做出预测的工具,其构建需要依赖已有的信贷数据集,然而目前大部分信贷数据集属于信贷不平衡数据集。信贷不平衡数据集指的是数据集中能够及时还款的信贷履约用户数远远大于不能按时还款的信贷违约用户数。基于以上阐述,对于信贷分类问题的研究可以延伸为对于信贷不平衡分类问题的研究,即如何利用信贷不平衡数据集来构建分类模型,从而实现对用户的分类。分类模型作为一种能够根据用户提供的信息对其信贷违约情况做出预测的工具,其构建需要依赖已有的信贷数据集,然而目前大部分信贷数据集属于信贷不平衡数据集。信贷不平衡数据集指的是数据集中能够及时还款的信贷履约用户数远远大于不能按时还款的信贷违约用户数。基于以上阐述,对于信贷分类问题的研究可以延伸为对于信贷不平衡分类问题的研究,即如何利用信贷不平衡数据集来构建分类模型,从而实现对用户的分类。
在传统 AdaBoost 算法中,弱分类器及其加权系数的多样性得不到保证,同时对不同类样本采取相同的样本权重更新策略,因而传统 AdaBoost算法不适用于信贷不平衡数据集的建模。因此,为了解决一系列的不平衡分类问题,基于采样和基于代价敏感的 AdaBoost 算法不断被提出,其中 SMOTEBoost 算法、RUSBoost算法以及 AdaCost 算法是较为经典的三种算法,但是在实际问题中,这三种算法还是存在一定的缺陷。
研究意义
本文在对信贷分类问题进行研究时,重点关注了信贷数据集的不平衡性,认为信贷不平衡数据集会对分类模型造成不良影响。
本文利用采样和代价敏感提出了一种新的改进 AdaBoost 算法,并详细论述了该算法的改进思路。本文的研究不仅丰富了数据挖掘理论模型,还拓宽9AdaBoost 算法的改进策略。
本文利用 AdaBoost 算法来进行建模与分析,并将分类模型的重点放在信贷违约用户的识别上。本文可以帮助银行等相关机构筛选出不能按时归还本金和支付利息的用户,以便于及时掌握用户的信贷违约情况,从而降低在发生信贷违约时需要承担的损失,进而降低或规避信贷风险,节约运营成本。
研究内容与研究方法
第一,以往的学者和研究人员在对信贷不平衡数据集进行建模分析时,大部分选择
从数据层面出发,即利用不同的采样方法来降低信贷不平衡数据集的不平衡比例。本文则选择从算法层面出发,在深入分析 AdaBoost 算法原理的基础上,基于采样和代价敏感对算法作出了改进,使得改进 AdaBoost 算法更加适用于信贷不平衡数据集,以期达到进一步提高信贷违约用户识别精度的目的。
第二,以往的学者和研究人员在 AdaBoost 算法的研究上,大部分选择直接对样本
权重更新过程作出修改。本文则首先将采样方法融入到 AdaBoost 算法中,再利用代价敏感思想改变算法的损失函数、样本权重的定义以及初始化样本权重,以此达到间接修改样本权重更新过程的目的。因而本文在 AdaBoost 算法的改进策略上实现了创新,提出了更加适用于不平衡分类问题的改进 AdaBoost 算法。