信用评分卡的开发过程

  这里介绍一下评分卡的开发的常规操作。它实际上是一个数据科学的课题,流程上有很多与机器学习实际问题相同的地方,但是它又具有其特别之处,如具有时间周期性,特征业务可解释性的需求等…让我们来认识一下吧!

评分卡的开发过程

1. 标准评分卡

1.1. 评分卡的类型和目的

  信用评分卡主要分为两类:

  1. 申请评分卡,对新贷款申请进行筛选并判断其违约风险;(我们说的贷前阶段的A卡)
  2. 行为评分卡,对审批通过的贷款账户进行覆盖整个贷款周期的管理;(我们说的贷中阶段的B卡)

  通常,申请评分卡被用来对新贷款申请进行一次性信用评分;而行为评分卡被用来对已经通过审批并进入到执行阶段的账户,即已经进行了一定交易的账户,进行信用评分。
  两种评分卡的开发过程都遵循同样的基本方法,主要差别在于:行为评分卡要比申请评分卡更为准确,因为行为评分卡基于的数据要更多,观察周期也可以更长。

1.2. 标准评分卡格式


1.3. 评分卡开发流程

  • 该流程的主要步骤包括:
    1. 问题准备;
    2. 数据获取和整合;
    3. 探索性数据分析与数据描述;
    4. 数据准备;
    5. 变量选择;
    6. 模型开发;
    7. 模型验证和评价;
    8. 评分卡创建和刻度;
    9. 评分卡实施;
    10. 监测和报告;
  • 可以用一下流程图表示:

  • 实际上,这个流程和一般性的数据科学课题的步骤是保持一致的。
  • 1就是我们对应业务场景需要解决的问题,比如我们要做逾期客户的模型,我们是否需要针对某一渠道来源的客户?逾期3、30还是90天以上?选定的逾期客户是首次逾期的还是多次逾期的?我们需要具有多久表现期的用户?等等。我们需要严谨得定义y变量;
  • 2-4可以对于对数据探索和特征工程,这也是整个评分卡开发过程中最耗时的地方;
  • 5变量选择,在个人金融信用评分卡开发过程中,普遍选取15个左右的变量,而且非常重要的一点是,这些变量必须具备业务解释性。如果我们做出了一个还不错的变量,但是我们无法解释这个变量具有什么样的业务含义,大的值表示什么,小的值表示什么,那么这样的变量即使具有不错的区分度,那么也很有可能被我们舍弃,这点是有别与一般的数据科学课题的。再次强调,目前的个人金融信用评分卡十分注重业务解释性;常用的变量选择方法有IV选取法;
  • 6-7,标准评分卡是局域logistic回归模型,在完成模型开发后,我们还需要进行模型的验证,包括ks值和模型在不同时间段表现出来的稳健性;
  • 8评分卡创建和刻度是评分卡开发中十分重要的一个环节,就是我们如何根据用户的违约概率生成其对应的信用评分?这部分还是不少干货的,我也会后续进行详解。
0%