一文带你了解风控评分卡模型

在业务系统的决策流程中，风控模型能为业务决策者提供有效的数据支撑和决策依据。

它可以对潜在的业务风险进行前瞻性的识别、分类和预警，多维度地自动评估和智能量化业务对象的风险明细和等级，并能进一步统计和分析风险的变化趋势，从而最大程度降低企业的风险成本。

基于大数据的风控模型的流程一般为：从业务对象各方面的历史特征数据出发，先经过数据处理和特征工程，再利用机器学习算法进行风险标签的二分类建模。最后，以评分卡的形式输出业务对象各个特征项的评分明细和整体评分等级。

本期，小编将从风控评分卡的应用场景、目标定义与数据准备、特征分箱、WOE权重、变量筛选、评分卡的实现与评估、风险等级划分等方面来给大家详细介绍风控评分卡模型。

1 应用场景

风控评分卡模型适用于银行信贷、金融风控、企业征信评估、供应商风险评估等应用场景。目前已在星空供应链中上线相关应用，如销售订单风险、企业征信风险、应收坏账风险等。

2 目标定义与数据准备

风控模型的预测目标一般是指判断某个客户是否为坏样本（通常以0/1为标准）。但在运用的过程中，不能简单地将坏客户定为1，好客户定义为0。需要结合时间点与业务指标进行综合判断。因此，我们引入以下概念：

风控模型的周期

观察点：该点并不是一个具体的时间点，而是一个时间段，在该时间段的客户样本将作为建模的历史数据。

观察期：此阶段主要用以生成用户特征的时间区间，不宜过长也不宜过短。若区间过长可能导致大批样本无法进入模型；过短可能会导致无法生成足够多有效的时间切片变量。

表现期：用以定义用户好坏的时间段，一般是6个月到1年左右，不宜过短，以保证样本群体分类的稳定性，使客户的风险充分表露出来。

表现点：截止到此时间点的客户被分类成“好客户”和“坏客户”。

此外，在观察的过程中，数据可能会出现错误。因此，需要通过数据的整理及清洗来提高数据的准确性。

一般而言，根据观察期和表现期的定义从数据池中取数，进行前期的数据清洗和稳定性验证工作。数据清洗包括用户唯一性检查、缺失值检查、异常值检查等。

稳定性验证主要考察变量在时间序列上的稳定性，衡量的指标有PSI、平均值/方差、IV等。

3 特征分箱

3.1 分箱的目的

从模型效果上来看，特征分箱主要是为了降低变量的复杂性和减少变量噪音对模型的影响，提高自变量和因变量的相关度，从而使模型更加稳定。
将连续变量离散化。
将多状态的离散变量合并成少状态。

3.2 分箱的原则

取值较少的类别型变量不需要分箱。
分箱结果需要有序性。
分箱的平衡性：占比最小的箱数据不低于5%。
分箱的单调性：在要求严格的情况下，坏样本率与箱呈单调关系；当非单调时，需要与前箱和后箱合并。
箱内不能全部是“好客户”或“坏客户”。

3.3 分箱的方法

有监督分箱：如卡方分箱、决策树分箱、最优分段分箱等。优点是与目标变量结合，最大程度将目标变量的信息反应在特征中，缺点是其计算量大。
无监督分箱：如等频分箱、等距分箱、聚类分箱等。优点是计算简单，缺点是无法保证合理性，不能充分利用目标变量的信息。

4 WOE变换

在风控评分卡模型中，通常为了业务解释性，我们会发挥线性判断变量的作用。当特征变量x越来越大，目标变量y也会越来越大。但实际x与y之间经常存在着非线性关系，此时可经过WOE变换。

WOE全称是Weight of Evidence，即证据权重，也被称为自变量的一种编码，公式定义如下：

4.1 WOE变换的优点

WOE数据关系

观察上图中badrate 和 WOE的关系，可以看出WOE越大，badrate越高，也就是通过WOE变换，特征值不仅代表一个分类，还代表了这个分类的权重。
如下图中的年龄与贷款违约率的关系，WOE可以把相对于预测变量显现非线性的特征转换为线性，这对于广义线性模型（如逻辑回归）来说是非常必要的转换。

WOE变换前 WOE变换后

5 变量筛选

基于观察期的定义，通过时间滑窗可以构造大量的特征变量，包括：数量统计类特征、占比统计类特征、趋势统计类特征、稳定性衍生特征和第三方变量衍生特征。

但这些变量并不都满足要求，需要剔除不符合要求的变量，从输入上保证风控系统的鲁棒性。

变量筛选的技术指标包括：

基于缺失率（Missing Rate）
基于变异系数（Coefficient of Variation，CV）
基于稳定性（Population Stability Index，PSI）
基于信息量（Information Value，IV）
基于RF/XGBoost特征重要性（Feature Importance）
基于线性相关性（Linear Correlation）
基于多重共线性（Multicollinearity）
基于逐步回归（stepwise)
基于P-Vaule显著性检验

理解指标的计算逻辑和业务含义是十分重要的。因此，接下来将从计算逻辑和业务含义两个维度展开分析。

1、缺失率（Missing Rate）

计算逻辑：缺失率 = 未覆盖样本数 / 总样本数 × 100%

业务含义：变量缺失率越高，可利用价值越低。缺失率变化不稳定的变量，特别是缺失率趋势在升高的变量，代表未来数据源采集率下降，不建议采用。

数据源是特征变量的基础，数据源不稳定，会直接导致模型稳定性下降。

2、变异系数（Coefficient of Variation，CV）

计算逻辑：变异系数 C·V =（标准偏差 SD / 平均值Mean ）× 100%

业务含义：变异系数越小，代表波动越小，稳定性越好。缺点在于CV没有统一的经验标准。

3、稳定性（Population Stability Index，PSI）

计算逻辑如下图：

上式含义为：PSI = SUM( (实际占比 - 预期占比）* ln(实际占比 / 预期占比) )。预期占比是指训练集上每个分箱里的样本占比，实际占比是待比较样本集的每个分箱里的样本占比。测算结果含义如下图：

4、信息量（Information Value，IV）

计算逻辑如下图：

业务含义：用以评估变量的预测能力。通常情况下，IV越高，预测能力越强。但IV过高时，需要检查是否发生信息泄漏（leakage）问题，即是否在自变量X中引入了Y的信息。

一般地，IV<0.02的为无效特征；0.02<=IV<0.1的为弱效果特征；0.1<=IV<=0.5为有效特征；IV>0.5为强特征。

5、RF/XGBoost特征重要性

计算逻辑：XGBoost默认使用特征在所有树中作为划分属性的次数来计算特征重要性。RF（Random Forest，随机森林）则利用袋外数据OOB准确率来计算决策树模型的特征重要性。如：XGBoost默认使用特征在所有树中作为划分属性的次数，具体如下图：

业务含义：在特征变量特别多的时候，特征重要性可用于快速筛选特征。从机器学习可解释性角度而言，特征重要性只具有全局可解释性，无法对单个case给出解释。

6、线性相关性（Linear Correlation）

计算逻辑：皮尔逊（Pearson Correlation Coefficient）等相关系数。

业务含义：评分卡建模使用的逻辑回归为一种线性模型，其基础假设是“自变量之间应相互独立”。当两变量间的相关系数大于阈值时（一般阈值设为0.6），剔除IV值较低的变量。

7、多重共线性（Multicollinearity）

计算逻辑：方差膨胀因子（Variance Inflat

一文带你了解风控评分卡模型

1 应用场景

2 目标定义与数据准备

3 特征分箱

3.1 分箱的目的

3.2 分箱的原则

3.3 分箱的方法

4 WOE变换

4.1 WOE变换的优点

5 变量筛选

一文带你了解风控评分卡模型

相关阅读

栏目

最新发布

热门标签