数据和算法哪个更重要?
同样重要。
前言
可能在部分读者认知中,信用评级模型的主要算法是逻辑回归和XGBoost,其他如无监督、半监督、深度学习方法等,主要用于反欺诈和反作弊。
今天就带大家看看信用评分模型中,算法很多种,到底怎么用。
现状
每家公司都在尽可能地争取着更多更优质的数据。但是仔细想一想,这些数据宝藏的价值最后都被使用者挖掘出来了吗?其实,很多使用者并没搞清楚每种算法的适用场景,也没能发挥算法和数据的最大价值。比如很常用的SMOTE算法,有一些同学觉得用起来没有效果,还容易出现过拟合的问题。就跟有人说“我用了XGBoost,但效果并没有比Cart好”一样。
这种情况会不会出现?会。
一个只有两个取值的特征,代入这两个模型效果不会有啥区别。但是不会有人提出这个疑问对不对?因为大家对这两个算法的内在原理有基本的认识,知道如何使得模型的效果发挥出来。
算法怎么用
算法的重要性,并不在于从XGBoost换成DNN后,KS会有几个百分点的提升,而在于:不同的模型,对不同的数据,在不同的场景下,有不同的表达能力。
比如,FM比逻辑回归就多了特征交叉的能力,算法内部产生了很多手工没有衍生出的特征,从而可以从理论上更好地发挥数据的功效。
比如,强化学习可以用于很多场景下的样本生成。
再比如,半监督学习可以极大程度上地增强风控场景下的模型表现。
类似的例子还有很多。
机器学习的进化
说句扎心的话,不是算法没有用,而是我们不会用。
做过计算机视觉的同学可能知道,最开始CNN没有统治CV领域的时候,我们使用一种视觉词袋模型,和现在的传统信用模型很像,使用手工抽取的特征,以及一些监督学习的模型。直到后来ImageNet大放异彩,几乎不做任何的特征提取,可以全部通过卷积核来自动完成,视觉词袋模型也就彻底退出历史的舞台了。
不是说逻辑回归评分卡一定会被淘汰,但是从目前SHAP值的解释性来看,XGBoost完全有替代逻辑回归的理由,只不过是接受度的问题。
算法架构
OK,理解之后,请看下面的这张图。这是一张信用模型的架构图,因为涉及一些公司的核心,架构图比较简略,只列出几项作为启发。
目前测试下来,信用评级模型中效果比较好且具有代表性的算法分别是:逻辑回归、LightGBM、RNN、DeepFM、GCN。
应用思路是,根据数据结构不同,选择不同类型的算法进行建模。与传统评分卡的区别是,除了结构化数据直接转换为评分卡以外,其余模型的输出可以作为评分卡中的一项。
此外,还有一些无监督、半监督的方法,就不单独列出来了。
细节介绍
下面分开看一下图中的几个部分:
(1)逻辑回归、GBDT类算法主要是用于结构化数据场景下的建模。这在行业内已普遍认可,不再介绍。
(2)FM类算法对高纬稀疏数据比较友好。所以对一些极度系数的数据,当前选用的算法主要是DeepFM。
(3)对于时间序列数据,业内很长一段时间主要是靠切片来做聚合,从而转化为结构化数据。17年开始,逐渐有人尝试使用一些时间序列特征的抽取手段,以及Prophet等算法进行拟合,不过最近个人的主要处理方法还是聚焦在RNN上,当前比较好用的算法是BiLSTM。
(4)网络数据主要是通过节点嵌入和表示学习进行转化。目前自用的是一种改进的node2vec算法和半监督的GCN算法。
(5)最终一般是使用一个广义线性模型做融合。主要还是担心模型的复杂度太高。
最后
模型架构图只是一个示意图,主要是帮助读者理解,事实上可能并不是这么融合的,而且一般A卡中RNN的表现不太好。