机器学习在金融大数据风险建模中的应用

问题导读：
1、为什么互联网金融、消费金融需要大数据？
2、什么是T-L核模型、Random Forest模型、ScoreNet模型？
3、机器学习在金融大数据中的关注重点是什么？

【摘要】
在互联网金融、消费金融的蓬勃发展的当下，央行征信在数据时效性、全面性和层次性上的短板日益凸显。深度挖掘互联网大数据信息，开发大数据风控模型，更加精准的评估风险，已经逐渐成为了新一代信用风险模型体系建设的核心课题。
本文在传统风险模型体系的基础上，嫁接逻辑回归和决策树模型建立T-L模型，并结合Random Forest模型完善模型结构。采用T-L核模型替代RF模型中的传统决策树模型，将RF模型和T-L核模型结合，建立了ScoreNet模型体系。既大大提升了风险模型区分能力，也保证了模型结构的清晰和评分广泛的应用。
【关键词】大数据风控 T-L模型 Random Forest ScoreNet

1.选题背景及意义
目前，央行的个人征信中心收录的自然人数达8.6亿多人，但其中仅有3亿多人有信贷记录，同时信贷记录主要来源于商业银行和农村信用社等金融机构，在数据时效性、全面性和层次性上存在严重短板。因此深度挖掘互联网大数据信息，开发大数据风控模型，弥补央行个人征信信息的不足，在互联网金融蓬勃发展的今天尤为重要。
无论是线上还是线下的用户消费、社交数据，都有着不同于传统征信信息的独有特征：

数据的稀疏性强(用户线上线下的行为散布广泛，极难全量收集和覆盖；用户行为偏好亦各有不同，在不同门类的行为差异很大，因此数据的稀疏性极为明显。一般情况下，用户行为信息的缺失率均超过50%)；

数据覆盖面广(信息覆盖面广泛，支付宝或微信都有超4亿活跃用户，用户行为覆盖服装、书籍、租房、休闲、娱乐等各方面，单指标维度超过1000个)；

单变量风险区分能力弱(不同于传统风险模型采用的历史履约情况，个人资产评估等强变量，消费或社交变量一般均为区分能力较弱的弱变量)。

传统信用风险评估模型在业务逻辑架构下，利用数据驱动或专家经验开发模型模板，最终结合统计分析模型(逻辑回归、判别分析等)得到精准的计量结果。然而在新的数据画像和业务情景下，不仅丧失了原有的业务逻辑框架，更使得传统统计分析模型的应用受到严重限制。近年来，机器学习技术得到飞速的发展，在信息识别、推荐引擎等领域都取得了出色的应用效果，大量实验结果证明机器学习模型有着良好的鲁棒性和泛化性。但机器学习模型的模型逻辑极为复杂，很难把控模型的真实效果，也不易于直观展示和解释变量的风险特性。如何结合传统风险评估模型体系和机器学习技术，在保证业务逻辑和评分广泛应用的前提下，更加精准的评估风险已经成了新一代信用风险模型体系建设的核心课题。

2.文献综述
David Durand(1941)在信用评分领域首先使用判别分析，预测贷款者的还贷情况；20世纪50年代，Bill Fair和Earl Isaac发明了基于logistics回归模型的FICO信用评分体系，得益于清晰的业务逻辑和解释性，该评分体系逐渐成为了最为广泛应用的风险模型体系。然而无论是逻辑回归还是判别分析模型，都主要针对线性问题，无法对变量的非线性结构进行分析，同时对数据完整性和有效性要求较高，对数据噪声亦比较敏感，不适用于大数据背景下的模型开发和集成。

McCulloch, Warren; Walter Pitts(1943)[1]提出了神经网络模型，取得了十分广泛的应用,并首次描绘了机器学习理论的雏形；Ray Solomonoff(1956) [2]在An Inductive Inference Machine一文中，首度提出了机器学习的概念；Aizerman, Mark A.; Braverman, Emmanuel M.; and Rozonoer, Lev I. (1964)[3]在统计学习领域的研究中提出了应用最为广泛的机器学习模型支持向量机(SVM)；Breiman, Leo (1996)[4]、Michael Kearns(1988)[5]、Ho, Tin Kam (1995)[6]提出了集成学习算法：Bagging、Boosting、Random Forest，完美的解决了传统机器学习算法过度拟合的困境，使得算法的稳定性、泛化性和鲁棒性都有了显著的提高。近年来，机器学习算法在图像识别、语音识别、信息检索、推荐引擎、非结构化数据挖掘等领域都取得了突破性的进展。推荐算法与风险模型的一致性，及GBDT[7]和Random Forest在推荐算法上优异表现，为我们研究金融大数据风险模型提供了新的方向和挑战。然而无论是单一机器学习算法，还是集成学习算法都有着复杂的模型结构，这种复杂的结构不仅使模型丧失了解释性，而且限制了专业模型分析人员对模型的把控能力，很难实现真正意义上的广泛的应用。

3.研究的理论框架与模型建设
本文在传统风险模型体系的基础上，嫁接逻辑回归和决策树模型建立T-L模型，并结合Random Forest模型完善模型结构，建立了ScoreNet模型。既大大提升了风险模型区分能力，也保证了业务逻辑的清晰和评分广泛的应用。

3.1.T-L核模型
传统信用风险评估模型在业务逻辑架构下分析变量的基本属性及风险区分能力，用逻辑回归等统计分析模型进行量化分析，得到精准的风险计量结果。然而用户行为数据独有的稀疏性会使得统计模型极不稳定。决策树对局部数据分析有着极强的稳定性和鲁棒性，同时可以揭示变量风险区分能力的非线性结构关系。因此我们将决策树模型和逻辑回归模型进行嫁接，建立T-L核模型。即在进行统计建模前添加一层决策树模型进行单变量分析，同时利用CHAID决策树生成二元决策树变量，然后将决策树模型的输出结果(单变量、交叉变量及二元决策树变量)一同导入逻辑回归模型中进行统计建模，确定所有风险因子的风险权重。

3.1.1.决策树模型
在决策树各种算法中，CHAID[8]（Chi-Squared Automatic Interaction Detection）既适用于二值型变量，也适用于连续型变量。针对每一次分叉，CHAID对二元响应和连续型目标变量分别采用了卡方和F检验。因此在本文中，选择CHAID算法作为决策树算法。
CHAID算法以因变量为根结点，对每个自变量（只能是分类或有序变量，也就是离散性的，如果是连续变量，如年龄，收入要定义成分类或有序变量）进行分类，产生一系列二维表，然后分别计算所生成二维表的卡方统计量或F统计量。如果因变量（目标变量）是定类变量（例如PD模型），则采用卡方检验(Chi-Square-Test)；如果因变量是定距变量（例如LGD，EAD模型），则采用F检验(F-Test)。如果几个备选变量的分类均显著，则比较这些分类的显著程度（P值的大小），然后选择最显著的分类变量以及划分作为子节点。

3.1.2.逻辑回归模型
逻辑回归模型[9]是因变量服从二项分布，且自变量的线性预测与因变量的logit变换相连接的一种广义线性模型[10]，具体数学表达式为：

由此可以得到

理论可以证明，如果样本的分布服从多元正态分布，那么该样本正好符合对数回归的假设。对数模型的误差项服从二项分布，因此，在拟合时采用最大似然估计法进行参数估计要比最小平方误差法估计。

3.2. Random Forest模型
3.2.1.Random Forest的基本原理
随机森林是由美国科学家Leo Breiman将其在1996年提出的Bagging集成学习理论[4]与Ho在1998年提出的随机子空间方法[11]相结合，于2001年发表的一种机器学习算法[12]。随机森林是以决策树为基本分类器的一个集成学习模型，它包含多个由Bagging集成学习技术训练得到的决策树，当输入待分类的样本时，最终的分类结果由单个决策树的输出结果投票决定，如下图所示。随机森林克服了决策树过拟合问题，对噪声和异常值有较好的容忍性，对高维数据分类问题具有良好的可扩展性和并行性。此外，随机森林是由数据驱动的一种非参数分类方法，只需通过对给定样本的学习训练分类规则，同时亦不需要分类的先验知识。

随机森林是以K个决策树为基本分类器

，进行集成学习后得到的一个组合分类器。当输入待分类样本时，随机森林输出的分类结果由每个决策树的分类结果简单投票决定。这里的

是一个随机变量序列，它是由随机森林的两大随机化思想决定的：
（1）Bagging思想：从原样本集X中有放回地随机抽取K个与原样本集同样大小的训练样本集（每次约有37%的样本未被抽中），每个训练样本集构造一个对应的决策树。
（2）特征子空间思想：在对决策树每一个节点进行分裂时，从全部属性中等概率随机抽取一个属性子集，再从这个子集中选择一个最优属性来分裂节点。
由于构建每个决策树时，随机抽取训练样本集和属性子集的过程都是独立的，且总体都是一样的，因此

是一个独立同分布的随机变量序列。
训练随机森林的过程就是训练各个决策树的过由于各个决策树的训练是相互独立的，因此随机森林的训练可以通过并行处理来实现，这将大大提高生成模型的效率。随机森林中第

训练过程如下图所示。

将以同样的方式训练得到K个决策树组合起来，就可以得到一个随机森林。当输入待分类的样本时，随机森林输出的分类结果由每个决策树的输出结果进行简单投票（即取众数）决定。

3.2.2.Random Forest模型的缺陷及改进方向
不难证明随机森林的泛化性误差的上界[12]为：

3.3. ScoreNet模型
本文引入3.1中建立的T-L核模型替代3.2中RF模型中的传统决策树模型，将RF模型和T-L核模型结合，建立了ScoreNet模型体系。

ScoreNet模型以传统模型为基础搭建，保留传统模型的业务解释性和稳定性。
ScoreNet模型以随机森林模型为基本架构搭建了随机模型，客服了传统模型对数据噪声亦比较敏感的缺陷，使模型的泛化性与稳定性有了进一步的提高。
ScoreNet模型客服了传统模型一般只能容纳10-15个变量的缺陷，模型可以涵盖100+个变量。可以从源头杜绝用户刷分现象，提升模型的公信力。
ScoreNet模型的在应用层面的高度稳定性与业务解释性，使其有着比纯粹机器学习模型更广泛的应用空间。

4.模型开发与结果分析
本文通过互联网爬虫技术及第三方合作机构通过跨商家、浏览器、设备、微信进行实时互联网数据采集分析，包括但不限于：商品消费行为采集与挖掘、资讯、社区与视频阅览行为采集与挖掘、O2O消费行为采集与挖掘、高单价商品消费行为采集与挖掘、金融服务行为采集与挖掘等。
通过各渠道数据采集与挖掘形成用户全方位的画像数据(如：人口统计学标签、用户通用标签、资产价值标签、消费行为喜好、阅读喜好标签、金融服务标签、社交圈标签等)，进而了解用户全方位属性信息。
本文采用大数据风险模型ScoreNet技术，针对身份信息核查、稳定性信息、金融申请信息、资产评估信息、商品消费信息、媒体阅览信息等6大维度对用户违约风险进行评估。

4.1数据分析
4.1.1.数据采集
本文采集了：身份信息核查、稳定性信息、金融申请信息、重要资产信息、商品消费信息、媒体阅览信息等6大维度近1000个子项的互联网数据。

从模型表现可看出模型在不同样本上皆具备一定程度的区分能力，表示其稳定性高，未来应用时能适应不同的人群。

4.3模型结果对比分析
传统模型与ScoreNet模型对比分析结果：

传统模型与机器学习模型(Random Forest)对比分析结果：

模型对比分析结果显示，ScoreNet模型较传统模型(Logistics)在区分能力上有了较大幅度的提高，可提升KS/AR值约0.05，同时延续了传统模型(Logistics)的稳定性和解释性；ScoreNet模型较纯粹机器学习模型(Random Forest)在稳定性、泛化性上有着绝对的优势，区分能力也更加优越。

5.应用分析及方案建议
5.1.征信多元化与风险量化
传统金融机构的征信信息来源主要是央行征信，但央行征信仅有3亿多人有信贷记录，信贷记录又主要来源于商业银行和农村信用社等金融机构。随着互联网不断渗入人们生活，互联网行为数据是央行征信的有效补充，可以不断强化征信数据的时效性、全面性和层次性，从无形中记录用户的行为，去伪存真，还原真实的客户。从而大大提升信息的利用率和有效性。
同时，大数据风险模型的应用，可以不断提高金融机构风险识别、计量能力。从而不断完善征信信息体系架构，为精细化风险定价提供必要的基础和土壤。

5.2.授信审批决策/自动化审批
传统上，金融机构的授信审批决策主要依赖于信贷人员的主观经验和判断，缺乏统一的标准，不利于金融机构整体风险政策的执行。随着大数据模型开发技术与内部评级体系建设的深度融合，金融机构可更加广泛和全面地将评分/评级结果应用于授信审批，为贷款决策提供参考和支持。
大数据风险模型优秀的风险排序及区分能力能够大力推进自动化审批的进程及线上产品的改革与创新。对模型评分高于一定级别且满足其它授信决策条件的，授信申请可以自动通过，不需要再经人工审核，对于评分低于一定级别的，模型自动拒绝其申请；只有模型评分介于以上两者之间的客户，才由人工介入进行申请审核。

5.3风险监控与预警
风险监控与预警是指借助各类信息来源或渠道，通过对数据与信息进行整合与分析，运用定量和定性分析相结合的方法来发现授信客户及业务的早期风险征兆，准确识别风险的类别、程度、原因及其发展变化趋势，并按规定的权限和程序对问题授信采取针对性处理措施，以及时防范、控制和化解授信风险的一系列管理过程。
大数据风险模型较传统内部评级体系更为精细和灵敏，可以快速识别贷后风险，为不同的用户设定不同的监控频率、自动筛选高风险客户，制定有针对性的贷后管理措施、贷后管理工作等。

6.参考文献

[1]. McCulloch, Warren; Walter Pitts (1943). A Logical Calculus of Ideas Immanent in Nervous Activity. Bulletin of Mathematical Biophysics 5 (4): 115–133.
[2]. Ray Solomonoff, An Inductive Inference Machine, IRE Convention Record, Section on Information Theory, Part 2, pp., 56-62, 1957.
[3]. Aizerman, Mark A.; Braverman, Emmanuel M.; and Rozonoer, Lev I. (1964). Theoretical foundations of the potential function method in pattern recognition learning. Automation and Remote Control 25: 821–837.
[4]. Breiman, Leo (1996). Bagging predictors. Machine Learning 24 (2): 123–140.
[5]. Michael Kearns(1988). Thoughts on Hypothesis Boosting, Unpublished manuscript (Machine Learning class project, December 1988)
[6]. Ho, Tin Kam (1995). Random Decision Forest. Proceedings of the 3rd International Conference on Document Analysis and Recognition, Montreal, QC, 14–16 August 1995. pp. 278–282.
[7]. Brieman, L(1997). Arcing The Edge.
[8]. Belson, William A.; Matching and prediction on the principle of biological classification, Applied Statistics, Vol. 8 (1959), pp. 65–75.
[9]. Huston, James A. (1966). The Sinews of War: Army Logistics, 1775–1953, United States Army (755 pages).
[10]. Nelder, John; Wedderburn, Robert (1972). Generalized Linear Models. Journal of the Royal Statistical Society. Series A (General) (Blackwell Publishing) 135 (3): 370–384.
[11]. Ho T. The random subspace method for constructing decision forests.IEEE Transactions on Pattern Analysis and Machine Intelligence,1998,(08):832-844.
[12]. Trevor Hastie; Robert Tibshirani; Jerome Friedman (2008). The Elements of Statistical Learning. California.

来源：http://www.36dsj.com/archives/42843