前言
科技赋能金融,是这个时代的主流。风险管理,是金融发展的必选命题。
在当代,金融机构在风险管理的每个环节都尽可能地引入计量分析方法,依托大数据进行后台的分析回顾,不断的优化调整,使得金融机构在风险与收益的博弈过程中更快达到平衡,实现局部甚至更多空间的利润最大化。
风控策略,则是金融机构追求利润最大化的强大武器。
风控策略,广义上是代表一种风险管理战略思想,狭义上讲,是一个个数据规则组合而成的风险管理架构。作者希望通过此长文,为FAL读者朋友们一次性解释风控策略体系。
全文总计1.8W字,35份配图,共分为5大模块,平均阅读时长1.5hs,建议读者分模块浏览。
PS:全文所有内容仅参考引用自FAL金科应用研院内部公号,FAL公号所有内容未经许可,不得转载!
目录
一.风控策略概要
二.风控策略分析师
三.规则所需数据的主流获取方式
四.策略分析常见工作场景与对应分析方法
1)三方数据源测评
2)准入策略的制定
3)白名单策略
4)黑名单策略
5)规则阈值cutoff如何设定
6)通过率下降的策略调整
7)逾期率上升的策略调整
8)信用多头策略
9)评分的策略应用五.模型与策略的楚河汉界
一、风控策略概要
1.什么是风控审批策略基于数据分析在申请阶段制定各式各样多维度的策略和规则;其中多维度数据的策略规则包括:
1)社交及短信维度规则
2)移动设备维度规则
3)外部数据源(如:征信报告、各种黑名单来源)规则
4)多维度评分卡规则
5)行为数据(设备信息、注册时间、登陆时间)规则
2.风控审批策略的目的在贷前审批减少风险事件的发生的各种可能性,挽回风险事件时造成的损失。较大的程度上筛选过滤高风险客户,保留低风险客户予以营销。针对客群分级实行个性化的审批流程,提高审批效率。
3.风控审批策略的作用在保证业务量的同时降低业务坏账率、控制逾期风险,最终实现公司盈利。
4.风控审批策略的类别多维度数据分析呈现了借款人的用户画像,制定多维度完善的审批策略规则,具体策略规则包含:
1)经济能力维度(月收入、工资流水等信息)
2)app信息维度(贷款APP安装个数、短信命中高风险关键词)
3)基本信息维度(年龄、性别、工龄等信息)
4)信用历史(征信贷款信息、还款记录)
5)行为表现(活动轨迹、登陆时间、注册时间等信息)
5.风控的基本量化指标#FPDx:首期逾期,x对应天数#CPDx:当前逾期,x对应天数逾期时间的长短来定义逾期的等级,C代表正常资产。
#Flow rate:迁徙率
释义:前期资产等级,落入下一期的比率。
*举例:C-M1=M月月末M1资产余额 / 上月末C的在贷余额8月C-M1 :8月末进入M1的贷款余额 / 7月月末C的贷款余额
迁徙率的计算,主要用于分析观察每个月份贷款的催收率,催收人员的催收力度对比,也用于计算公司的坏账计提标准、资产拨备。
#贷款状态
#贷款状态–>迁徙率报表
#vintage:账龄分析
释义:以贷款的账龄为基础,观察贷后N个月的逾期比率,用于分析各时期的贷款贷后质量,可推测至当时放款月的进件客群变化以及策略规则调整对放款贷后质量的影响。
*举例:
MOB0,放款日至当月月底
MOB1,放款后一个月份
MOB2,放款后两个月份
#Vintage Delinquency 31+(MOB3):放款月后的三个月份,逾期天数31+剩余本金/放款月的贷款总额。
6.确定目标变量根据催回率及迁徙率确定好坏客户
由上表可以看出,M2以上的迁徙率将近90%,所以确定当前逾期31天以上为区分好坏客户的标准,及后续分析的目标变量。
7.制定风控审批策略
以城市等级为例,城市等级与逾期的关系:城市等级越低,其对应的逾期率越高。
8.策略预估
预估策略上线对生产运营阶段的影响,基于进件量、放款量、通过率的影响。
9.策略监控
策略上线后,监控此策略的占比与预计的占比是否发生严重偏差,且在正常运行阶段是否全部执行。
10.策略回顾
对上线后的策略,在一定时间后。对于有表现的数据进行策略回顾,看策略调整后的进件量、通过率及贷后表现。若是想及时的查看策略上线后的贷后表现可以针对FPD指标分不同的天数去观测,FPD4,FPD10,FPD30等。
若策略是调宽或者是放松时,可以针对性回顾下豁免出来的客户的进件情况、通过率及贷后表现。若策略是调严或者收紧时,可以针对性回顾拒绝阀值边缘维度的贷后表现及拟定拒绝的客户数。
二、风控策略分析师
风控策略分析师是完成上述P1部分所有分析,构架风控策略的人员。那么对于风控策略分析岗,他的日常工作、必备技能和核心作用有哪些呢?
1.日常工作内容
- 贷前、贷中及贷后各环节的风险策略与流程,制订各项策略规则,具体包括准入、授信、定价、用信、还款、调额等信贷流程各阶段的策略规则
- 通过对各类风险指标与报表的分析,关注各类资产和客群的风险变动,对公司全渠道风险政策与策略进行跟踪评价,并及时优化调整相应的风险政策与策略
2.必备技能
- 结合内外数据,通过统计分析方法,对不同风险点制定出不同类型
- 的风险规则
- 完成整个贷前、贷中和贷后的风险规则架构,实现自动化风控
- 可以实现策略规则优化,不限于A、D类调优方法
- 规则的部署与监控预警
- 临时指标调整的项目经验
3.核心作用
实现具体规则和流程的设计、开发、部署、监控与优化
三、规则所需数据的主流获取方式
获客,一直是互联网商业行为中至为重要的一部分,犹如数字化基础建设,只有解决了获客问题,用户生命全周期管理才得以继续开展。
下面介绍一些主流数据获取方式。
#H5渠道
H5是HTML5的简称,是一种快速开发网页的编程语言。H5渠道就是基于HTML5语言开发或搭建出来的网页,有电脑端和手机移动端两种形态。
金融机构获得客户如果采用H5页面方式,一般都是基于自家的微信公众号、小程序进行。
比如上图某金融机构在微信公众号里设置了借款H5链接,点击立即申请后,完成少量的客户信息填写,即可进行贷款申请。
H5渠道的优点是开发方便快捷,属于轻量级开发任务。但缺点也明显,风控采数上限制颇多,因为纯H5页面只能搜集类表格型数据,也就是你想让客户填写什么信息,就要在H5页面体现出输入框,以及少量的浏览器和系统信息。更多的数据无法在纯H5渠道上获取。所以,金融机构常常为了保证用户体验要放弃掉更多的客户信息主动填写设定。
一般,通过H5渠道主要为了达到如下目的:
- 产品宣传;
- 基础信息填写;
- 浏览器版本号、登录时的地理位置、手机系统类型(如安卓、苹果)、是不是虚拟机和越狱;
- 插件跳转
#API渠道
API是Application Programming Interface的缩写,是应用程序编写的接口。
举个形象一些的例子:
假如有一个大房子,里面有A-E5个房间,A房是游戏室、B房是健身室、C房是电影室、D房是餐饮室、E房是休息室。每个房间功能不一样,里面的配套设置也不一样。每个房间都对应一把钥匙。
社会关系中每家企业相当于一个大房子,里面存有不同功能数据的房间。如果要访问某一间房间,就需要房主给你配备对应房间的钥匙,这个钥匙就是API。通过API这把钥匙,我们可以进入到房间里,体验到房主想让我们体验到的生活。
从上述形象的例子可以发现,通过API渠道我们可以从流量平台获取大量的客户信息,理论上我们需求什么,都可以通过API来传。但是API传什么是根据数据提供方的意愿来传,接口可以有这个数据,但是数据合作方也可以选择不传。
另外数据的真实性也没办法确认,因为数据是合作机构提供给的,并不是通过自己程序抓取的。API渠道获客的全流程完全在提供API接口的合作方内部完成,自始至终都没有离开他们的平台,甚至可以连提现环节都是在他们平台里实现,这样连提现分佣也都有相关的利益关联。
API渠道操作简单,一般只需要完成与合作机构的接口对接即可获得客户及其数据。相比较纯H5可以获得更丰富的客户信息,有更多的维度做用户风险管理,但也因为与合作机构发生关联关系,省事之外,有更多的商务谈判和利益关系。
#SDK
SDK是Software Development Kit的简称,既软件开发工具包。一般都是一些软件工程师为特定的软件包、软件框架、硬件平台、操作系统等建立应用软件时的开发工具的集合。
怎么能形象地理解SDK呢?
还以上面大房子为例,如果你作为金主爸爸看中了这个大房子的所有配套功能设施,租用或买下了这个大房子,你就一瞬间拥有了所有的房间和钥匙。SDK这里就可以简单的对应成这个大房子,里面配有5把钥匙和5个房间。之后只需要将这个大房子安置在自己的土地上,就可以过上舒服自由的生活。
在现实社会里,金融机构通过将SDK嵌套在自家的H5或APP里,以实现封闭式数据获取和管理。在风控采数上也更加的灵活,比如可以通过SDK设定,获取用户的设备唯一识别码进行反欺诈、采集用户信贷申请时的行为数据进行信用评分模型建模。风控自建客户数据都可以借助SDK实现。
当然,还有其他的一些获客渠道比如APP、网站等,相比之上三种容易理解,在这里就不做详细分析。
四、策略分析常见工作场景与对应分析方法
1.三方数据测评
#案例:现有1000个样本数据,分别测试2家黑名单,2家欺诈名单与2家多头,如何选择合适的第三方数据源?
首先要专业科普选择第三方数据源重要考察的5大指标计算公式(以黑名单为例):
- 查得率(Search rate)=查得数/样本量
- 覆盖率(Cover rate)=查得命中黑名单数/样本中命中黑名单量
- 误拒率(Error reject rate)=查得命中黑名单数/样本中通过且为Good量
- 有效差异率(Effective difference rate)=查得命中黑名单数/样本中通过且Bad量
- 无效差异率(Invalid difference rate)=查得命中黑名单数/样本中其他拒绝量
其中SR、CR、EDR指标越高越好,ERR越低越好,IDR与EDR结合起来观察,如果IDR和EDR都较高,反应的一种情况是数据源定义黑名单是广撒网式,黑名单质量相对不够精准。
其中前三个指标是重点考察,如果想更全面的测试第三方数据源,后面两个差异率指标也可以加入考核标准。
测试数据与考核指标关系图如下
#数据介绍:
1000个测试样本数据中,审批结果字段表示样本通过和拒绝,其中通过样本中有未逾期和发生逾期的客户样本,拒绝样本中有通过黑名单库拒绝客户,也有其他原因产生拒绝。比如,数据源1(黑名单)代表一家提供黑名单数据的数据供应商A,数据源2(黑名单)代表另一家提供黑名单数据的数据供应商B,以此类推。
#分析方法:
本次以黑名单数据测试为例讲解:
对1000条测试数据返回结果进行整理可以总结出如上数据概要,对比看到数据源1的返回结果如下:
- 查得总量814个;
- 命中黑名单35个;
- 通过中为Good3个;
- 通过中为Bad8个;
- 其他拒绝为22个;
数据源2的测试返回情况以此类推。
采用专业考察第三方数据源的五大指标,对以上返回结果计算分析得到以下结果:
按照文章开始介绍的指标分析方法,对比数据源1和数据源2的测试结果可以得出如下结论:
- 数据供应商1的查得率、覆盖率高于数据供应商2大约5%、4%;
- 数据供应商1的误拒率低于数据供应商2大约0.3%;
- 数据供应商1的有效差异率低于数据供应商2大约8%,无效差异率低于数据供应商2大约7%;
依据五大指标分析标准,SR、CR、EDR指标越高越好,ERR越低越好,IDR与EDR结合起来观察,如果IDR和EDR都较高,反应的一种情况是数据源定义黑名单是广撒网式,黑名单质量相对不够精准!
最终分析结论:
数据供应商2虽然覆盖的黑名单比数据供应商1的更广,但其不如数据供应商1精准,更偏向选择数据供应商1的黑名单数据。
2.准入策略的制定
风控准入策略作为金融借贷机构评估一个借款人是否有机会获得授信的第一道门槛,是借款人与贷款人之间平等合理的发生金融供需关系的基石,也是保卫金融机构的第一道护卫。
风控准入策略属于贷前风控策略体系的一部分,贷前风控策略包括基础认证、准入策略,贷前反欺诈策略,黑名单策略,特殊名单策略及信用风险策略。风控准入策略中的规则更多是由产品政策性规则构成。
1-为什么要设计风控准入策略
风控准入策略作为维护贷款人利益的基石,从设计之初就决定了它的重要作用。风控准入策略的规则属性全部为强拒绝规则(硬规则),借款人一旦不满足一条准入规则金融贷款机构都不会给予贷款的授信与发放;同时,风控准入规则不需要经过复杂的规则衍生,通常可以简单有效的判决借款人是否有资格进入之后的风控流程;最后,风控准入规则的策略理念是验证借款人依法合规未被政策限制。
2-风控准入策略模块
在讲风控准入策略模块之前,不得不提风控基础认证模块。
基础认证模块主要作用是验证借款此人是本人,也是以风控规则形式出现,规则大多为公允共认的规则。比如身份证信息验证,人脸信息验证、银行卡四要素验证、运营商三要素验证等。
在验证完借款人基础信息后,风控贷前流程才会进入准入策略模块。
准入策略模块主要分为年龄准入、地区准入、行业准入及其他。这些准入规则的根本设定原则是基于监管和金融机构产品政策性导向。
年龄准入策略
对于年龄准入而言,中国银行业监督管理委员会令《个人贷款管理暂行办法》中指出个人贷款申请应具备以下条件:
(一)借款人为具有完全民事行为能力的中华人民共和国公民或符合国家有关规定的境外自然人;
(二)贷款用途明确合法;
(三)贷款申请数额、期限和币种合理;
(四)借款人具备还款意愿和还款能力;
(五)借款人信用状况良好,无重大不良信用记录;
(六)贷款人要求的其他条件。
其中借款人具有完全民事行为能力的中华人民共和国公民年龄范围在18-60岁。所以合规的金融机构信贷产品的借款人年龄准入策略中,年龄规则的设定是:年龄>X & 年龄<X ,X属于18-60。有些贷款产品,则是根据贷款人的性别不同来限制年龄的。比如对于女性申请人的年龄限制是22周岁以上,而男性申请人的年龄限制为20周岁。
地区准入策略
一般金融机构会按照风险热力地图将一些重灾风险区进行隔离或者进行“象征性”政策贷款发放。
地区准入规则的初始设定一般是风险集中度比较高、社会稳定性比较弱、地区经济GDP比较低,亦或是难催收的地区,比如新疆、东北等个别地域。
在之后随着信贷业务的开展,也会根据贷款回收率对地区准入规则进行一些策略调整,比如一些地区的贷款回收率长期观测较低,金融机构企业内部信贷战略调整后,可以将这些地区加入限制性地区里。
上图事例1中展示的是M1阶段的回收率热力分布地图,可以发现灰色区域的M1贷款回收率低于60%。如果需要进行地区准入策略的调整,还可以将M1回收率0-60%的区间划分的更细,比如0-15%的M1回收率,也可以将省维度拆成市级维度进行限制。
此处需要提醒,一旦加入到地区准入规则后的地域在之后将无法进行信贷业务,同时也会失去观测业务数据,所以此类的策略调整要谨慎设计。
地区准入策略的常用规则如户籍地址 in(x,x,x),单位地址 in (x,x,x), 家庭地址 in (x,x,x)等。
行业准入策略
行业准入策略的基础原则是对一些行业工作不稳定或无业的借款人禁止提供信贷业务。
大多金融机构信贷业务都会禁止的行业有金融属性行业如投资、担保、理财、典当;政策性敏感娱乐行业如KTV、按摩院、会所等;无业和自由职业。
值得一提的是,对于学生贷款,除国家允许的银行外其他金融机构不得涉猎。对于媒体工作者,检察院等行业,有些金融机构也会因为一些隐形原因选择此类行业禁止准入。
3-风控准入策略的功能与意义
风控准入规则,就是如同人体的皮肤和黏膜,是整体风控流程中的第一道防线。虽然现在大部分金融机构的准入策略已经逐渐趋同与固化,风险防范的更多重心在风控流程的反欺诈、黑名单、信用策略等,但在一些具体金融模式和场景下,如消费分期贷、循环现金贷、信用卡、小微企业与个体工商户现金贷,对于准入规则阈值的具体策略仍有差异。
针对不同信贷场景采取更适应业务的准入规则,设定科学的准入策略,对于风险的防范与降维有十分重要意义。合理的风险准入策略,也能对信贷业务的走向与风险倾向产生直接影响,进一步影响金融机构的最终盈亏。
3.白名单策略
金融机构在开展信贷业务的时候,有一批客户是风险相对可知可控,对这批客户进行授信贷款时,金融机构风控工作者内心比较“信任”,由这批客户构成的内部名单,就是业内俗称的“白名单”。
风控白名单的定义
其实,针对不同的业务场景会有相应的白名单类型,一般业务上经常使用的白名以下两种业务场景:
A.在存在自有存量数据的前提下,金融机构想开展信贷业务,前期需要通过白名单控制入口,此类场景多存在于业务初期,或者是内部员工贷的业务场景。
B.在业务开展中期,需要部分进件客户走特殊贷前审批流程,满足特殊审批的要求,此类场景多存在于较大的金融公司。
分析A场景,可以发现此时的风控白名单可以帮助金融机构在风控模型不完善的条件下,先把业务开展起来。同时,在这个展业的过程中,可以逐渐组建适合金融机构业务的风控策略和模型。
对于处于B场景的风控白名单,更像我们认知中的借贷”VIP”,他们有着较好的信用、较好的资产亦或是较好的“背景”,通过一些特殊审批流程进行贷款的审核,最终满足“VIP”的借贷需求。
综合来讲,白名单可以定义为,通过金融机构内部现有数据判断的“好客户”,或者经过一系列规则挖掘分析得出的“好客户”,由他们组成的借贷优质名单。
如何筛选出白名单
白名单即然是由借贷优质“VIP”组成的,那么我们应该通过什么方式筛选出风控白名单呢?在这里提供几种筛选白名单的策略。
1.联合建模
金融机构在有存量数据的前提下,自有数据是不缺乏X特征变量,主要缺乏相应业务场景有表现特征的目标Y变量。在这个时候可以通过引进一些外部机构进行联合建模,用以补充一些Y变量。
通过与外部机构联合建模得出评分,不论是将其用于内部客户分层,还是将评分分数直接做规则,都对筛选白名单有很好的帮助。
2.内部数据探索
我们在筛选白名单的时候,除了通过联合建模弥补相应业务场景下目标变量的缺失,还可以通过内部数据探索,寻找分析一些对逾期违约表现相关性较强的一些特征规则,逐渐设定出白名单规则。这里面分为两种规则设定方式。
第一种是寻找与新开展业务相似模式和场景的已有产品,参照已有产品的风控策略规则对新业务场景数据进行比对分析,参照已有产品的策略规则制定出新业务场景的风控白名单规则。
另外一种方式是在更“艰苦”的环境下,没有任何可对比参照的已有产品,这个时候设定的白名单规则相对更严谨,同时对风控策略工作者的业务经验要求更高,可以认为是一种专家经验规则。
3.引入外部数据匹配
在进行内部数据探索的同时,我们也可以通过引入一些外部数据如工作单位、学历、社保缴费单位、公积金缴费单位、缴费基数等一些对好坏客群区分能力较强的数据,通过内部数据与外部数据的变量结合,共同设定出白名单策略规则,筛选出优质客群。
白名单的作用
即然白名单是我们业务开展初期或者大型金融机构风控的“特殊”安全线,那究竟白名单在业务场景中有怎样的作用呢?我们以上文提到的A业务场景简单介绍下白名单的作用。
1.控制放量节奏
从业务发展角度来看,其实白名单只是一个过渡,存量数据一定会有用完的一天,风险管理最终的目标还是开放所有人群进行信贷业务的申请,所以在金融机构新业务开展初期,白名单的作用更多的是可以控制放量的节奏,便于整体调控。
2.降低风险
即然白名单是我们认为的优质借贷“VIP”,在新业务开展初期对他们进行放款产生违约的风险一定比其他客群的风险更低。
3.提高审批通过率
对白名单客群,我们的风控规则相对较松,自然在放款初期风险相对可控的前提下,我们有相对较高的审批通过率。在一定意义上,也有利于前期业务的积累,从整个信贷管理周期来讲,也可以认为是一种风控战略。
4.可协助调整贷前策略
风控白名单的筛选也是由一系列的贷前策略规则组成。在之后的风控策略与模型搭建过程中,通过基于白名单规则的衍生、白名单中逾期客户的策略回顾,也可以协助风控策略人员调整贷前策略。
总结
可以看到,风控白名单作为一类“特殊”借贷客群,不论对于金融机构新业务快速展业,还是在业务发展中期特殊客群关系贷款,白名单在整体风控策略模型中,都扮演着一份”特殊“的角色,也正是因为这一份特殊性,风控白名单也可以称为风险控制的”特殊安全线”。
4.黑名单策略
黑名单,顾名思义是性质极其恶劣的坏客户。无论是其还款能力,还款意愿,借款目的等都不能满足正常客户的标准。
在金融机构里,黑名单的来源一般有自建和外部引用两种。对于业务初期的金融机构通常调用三方数据接口查询行内黑名单客户,同时在自家展业过程中,通过贷后管理逐渐补充、完善自家黑名单库。
1-黑名单客户为金融机构带来巨大损失
假设一个场景:如果有一万块钱,借款一年,不考虑其他,综合年化36%的信贷产品,因为一个黑名单客户导致本金全部损失,那么实际上需要大约3个好客户才能弥补1个坏客户的损失。
如果我们加上资金的运营成本,人力成本,引流成本,实际成本等。 假设需要的综合年化是15%,那么实际上 ,也就是5个好客户才能覆盖一个坏客户的本金损失,同时还需要覆盖上述的各种成本 ,也就是说金融机构大约要用6个完全的好人才能替代一个完整的坏人。
而在现实情况下,并不是所有的产品都是12期,也会有3期、6期产品,同时也包含资金占有率问题,实际上需要的用更多的好人去覆盖坏客户带来的损失。
从上述场景我们可以看到,黑名单对于金融机构的影响以及所付出的代价是巨大的。所以,黑名单库的使用对于金融机构来讲是一项特别重要的工作。
2-黑名单的一般使用方法
正因为黑名单库里的客户一旦贷款成功会对金融机构带来巨大的损失,所以目前金融机构风控部采用的风控策略是黑名单全部拒绝,但是,对于不同业务属性的机构,黑名单的风控策略也不是绝对的。
打个比方,对于金融机构业务最核心的问题是本金安全,所以申请客户一旦触碰到黑名单规则,金融机构通常会全部拒绝。
但对于导流助贷性质的金融科技机构,业务最核心的问题是流量和客户质量,如果全部拒绝黑名单客群,其所付出的成本巨大。因此导流助贷机构可能会选择性放入一部分客群,结合客户评分,多头等数据综合判断,或者随机放过。
3-黑名单的测试
金融机构一般在全部拒绝黑名单前,会随机放过5%或者10%的触碰黑名单的客户,去测试黑名单数据有“多黑”,测试该黑名单客群是否适用于该机构。
4-黑名单库的自建
黑名单一般的自建维度有参照回款表现、渠道、利率、各种公布失信类客户以及通过爬虫获得的一系列坏客户,黑名单的设定不一定仅限客户本身,也可以拓展为身份证、手机号、邮箱、银行卡、ip地址等,都可作为自建黑名单的参考维度。
5-黑名单的引用
市面上绝大部分三方金融科技公司都有自己的黑名单库服务,这是金融机构主要引用的黑名单库。因为自建黑名单命中率通常不会太高(相同客户再次注册的概率较低),且自建黑名单库需要长期的业务积累过程,因此金融信贷机构常常需要借助三方金融科技公司的黑名单库服务(特指三方数据供应商商以及其他金融信贷机构)。
-6-爬虫类数据的对黑名单影响
爬虫是增加数据维度最重要的方式,同时爬虫类数据可以最大程度减少成本的损耗。
金融机构查询征信的成本是非常高的,助贷导流客户平均成本一般不会超过5毛钱,金融机构开展信贷业务所需风控数据成本也不会超过10元。现在国家对爬虫类数据开展严查,爬虫类的严格监管再次使得风控成本急剧上升,而目前市场上很多黑名单的生成正是爬虫爬取的数据,最终导致的结果就是黑名单数量开始变少,变相导致风控成本的增加。
虽然现在大量p2p以及小贷机构接入百行征信,但我想要说明的是:滞后性和成本的增加使得黑名单需要更多的共享,只有共享才能更全面了解我们金融机构所接触的客群。
5.规则阈值cutoff如何设定
对于风控策略分析师,如何从大量的规则维度中找到核心风控指标,不仅要基于数据分析结果,同时也要具备风险识别敏感度。风控指标的拒绝线划分,之前被多数人甚至同业者一致认为是“拍脑袋”的决策,这样也让策略分析师有了“玄学”、“经验主义”的另一称号。
其实,风险策略拒绝线的设定,背后有严谨的分析逻辑,本文就以评分分数区间和年龄规则为例,为大家讲解审批策略拒绝线的内在分析方法。
其实,风险策略拒绝线的设定,背后有严谨的分析逻辑,接下来就以评分分数区间和年龄规则为例,为大家讲解审批策略拒绝线的内在分析方法。
背景介绍
评分模型,尤其是主流基于线性Logistic算法的评分模型,对于一些边际评分区间的风险,其实常常无法精准的预估到,势必会造成一些区间风险被低估的现象。如果不通过一些规则维度的拒绝补充,容易因为模型风险发生不必要的利益损失。
假设我们已经对评分模型分数分为T1-T5组,T1风险最低T5风险最大。年龄规则也使用单变量树模型初步分为5组区间。我们希望结合评分分数找到年龄规则这个核心策略维度的合理拒绝线。
第一步:通过评分找到风险被低估的区间
本例中,首先将年龄与评分卡进行交叉矩阵分析,观测不同交叉区间里的用户违约概率。
上图示例1对于从事策略分析人员应该不会陌生。一般策略规则多数组之间的趋势线是紧密相近的。从图示数据走线可以发现,年龄组[35,47)和[47,53)这两个年龄组的违约概率走线脱离了其他分组,尤其是年龄组[35,47),其走线脱离其他“群体”过多。通过分析初步定位年龄组[35,47)和[47,53)可以是待确定的规则拒绝线。
第二步,评估拟拒绝人群的收益/风险比
虽然经过评分与年龄的交叉对比,发现年龄规则的两个待确定高风险拒绝区间。但是实际拒绝线的划分要结合年龄分组区间人群的实际收益与风险进一步考虑。如果高风险的人群可以带来高收益,对于策略来讲也是可以接受的。
将年龄分组区间按照上图示例2横轴所示指标进行统计,假设年龄分组[35,47)的收益/风险大于[47,53)且为正,即表明虽然[35,47)年龄分组的人群违约率最高,但其收益同样也是最大。反而[47,53)年龄区间的人群为公司带来负收益。
本着收益覆盖风险的商业理念,此时对于年龄这一维度的策略最佳拒绝线,应该划分在[47,53)这一分组区间。6.通过率下降的策略调整
审批通过率和不良率是一对权衡指标,在新业务上线初期,维持一个较低的通过率可以保证最好的客群进去。随着业务规模做大和风控样本积累,此时需要在风险容忍度可接受范围内提升通过率,以保持收益的最大化。如果某一天风控通过率忽然降低,这种情况下策略分析人员应该如何应对?
1.寻找通过率下降的时间点或时间段
在风控策略稳定之后,审批通过率一般稳定在某一小范围内波动,当监控每日通过率指标时发现,T-1、T-2时点的通过率明显下降,我们应该先通过监控报表迅速定位到具体时间点或时间段。
假设如上图示例1和2所示,明显发现2019.6.23和6.24授信通过率下降。
Tip:上图示例通过率下降到6.9%、7.0%可以直接用肉眼分辨数据,但实际业务一般建议以通过率趋势图和PSI指标监控通过率下降。
2.判断策略节点主次要拒绝影响
发现通过率下降的时间点或时间段之后,下一步先聚焦到策略节点。本文为FALers举例两个策略节点A(准入)和B(规则)。以6月23日为时间节点划分,对比数据分析,寻找拒绝率的波动差。
上图示例2中波动差按照B段A节点拒绝率-A段A节点拒绝率计算出来,以此类推。此时计算波动差仍然可以考虑加入PSI=(B-A)*LN(B/A)测算波动差,A节点的PSI为0.77%,B节点的PSI为0.01%。
按照波动差确定通过率的下降主要因为A节点的拒绝率上升引起,从而将通过率下降的影响因素从策略A和B两个节点问题进一步聚焦到A节点上。
3.从节点聚焦到节点规则层深度分析
完成节点的聚焦分析,定位到引起通过率下降的主要原因节点A,接下来需要进一步分析节点A内包含的所有规则拒绝情况。
与节点聚焦分析一致,寻找引起拒绝率上升的主次要拒绝规则。在规则层确定主次要影响因子时,分析方法不仅结合数据同时也参考业务场景。
从上图示例4可以发现,按照波动差分析得出年龄准入拒绝和X3_准入拒绝是主要引起通过率下降的规则。
4.具体规则分布分析
从步骤3确定出年龄准入拒绝是第一位引起通过率下降的规则后,第四步就从规则层聚焦到具体策略规则的分布上。
通过分析具体策略规则分布的波动差定位具体策略规则的某一分布,找出引起通过率下降的主要策略分布。
从上图示例6可以发现,年龄准入拒绝这一策略规则中,18-25岁的分布拒绝率在时间A段和时间B段的波动差最大,这个年龄分布的拒绝率上升可能是引起整个审批通过率下降的主要规则分布。
造成以上18-25岁年龄分布拒绝增加的原因,很常见的一种是进件客群发生了变化,针对客群发生突然变化的情况,如何将分析结果指导决策执行,是策略分析最后且最重要的一步。
5.分析指导决策
仍以上述案例为例,通过一系列聚焦分析发现,18-25岁的进件客群变化是引起整体通过率下降的核心因素。实际业务场景中,并不会因为此时通过率突降就进行策略规则的调整,更多的是通过聚焦分析后,结果进一步细分两个参照要素:进件渠道的进件量分布和最大进件渠道的年龄准入拒绝分布。
5.1.进件渠道分布分析
既然是客群的变化引起了整体审批通过率的下降,从进件的所有渠道数据中进行分布排序,定位到渠道进件量A段和B段都最大的一个进件渠道C。
5.2.最大进件渠道的年龄准入拒绝分布
通过进件渠道进件量分析,从众多进件渠道中定位到最大进件渠道C。此时分析主要拒绝规则-年龄准入拒绝的渠道C的分布情况,是否满足条件:B段与A段年龄18-25岁的波动变高。
从上图示例8中分析发现,渠道C年龄在18-25岁的客群进件量在B段比A段上升明显,即从渠道进件前段业务确定出引起通过率降低的主要进件渠道C。至此,可以进行策略分析决策建议。
5.3.决策建议
将策略分析结果应用于前段业务指导和决策,提醒前端业务人员在渠道C可以适当缩紧18-25岁客群的进件需求,以此共同维护金融公司整体风控通过率,这才是风控策略分析工作者最终的使命和义务。
7.逾期率上升的策略调整
当逾期升高时,如何进行策略调优。
真实案例背景(数据已脱敏):
通过PQR监控报表发现,某XX贷产品的MOB报表自2019年5月开始,后续放款月资产逾期呈上升趋势,既DPD30+逐月上升,且上升速度逐步增快(MOB期数逐渐缩短)。在2019年11月放款的客户里,MOB=4的DPD30+等于2.49%。如下图1所示。
通过将MOB制作成Vintage报表,可以观测到某XX贷产品的风险自2019年5月到11月的DPD30+平均值位于6%的水平,如下图2所示。
往期DPD30+表现出的风险水平逐月快速上升现象,意味着如果不做相应的策略调整,之后的放款月风险将会更快的暴露。
针对此时逾期快速上升的背景下,如何分析策略,进行策略调整呢?
策略分析方法
第一步:确定存量还是新增客户导致逾期上升
信贷业务每个月发生授信和放款的客户可以分成新增客户和存量客户。从上图示例2中Vintage报表展现的数据,反映出资产逾期呈上升趋势。那我们首先需要将2019年5月到2019年11月(可观测到DPD30+)的Vintage分成新增客户的Vintage1和存量客户的Vintage2,如下图3。
从上图3的Vintage1(新客户)和Vintage2(存量客户)标注的红色椭圆框可以观测到,新客户的DPD30+平均处于6%,存量客户的DPD30+平均处于5%。与图示1对比可以分析出,导致资产逾期上升的主要原因是新增客户资产变差的影响。
至此阶段的分析结论:我们可以确定出需要调整的策略规则是贷前规则。
解释如下:往期放款月中,新客户是由贷前规则通过后,给予授信并放款的,存量客户的复借是由贷中规则决定。通过Vintage1和2的分析比对,引起资产逾期上升的主要原因是新客户的逾期上升。
第二步:多维度分析,找出最主要影响规则
通过第一步的分析确定出核心要调整的是贷前策略后,我们接下来要通过分析不同的规则变量,找出对目标变量(DPD30+)影响最大的维度变量。
这里提供分析主要影响变量的两个思路,具体实践过程就不在这里多讲,文末推荐阅读有链接。
思路一:自上而下地按照A类策略调优方法,从贷前策略节点到节点里的规则集,再细分到具体规则,逐步分析出影响较大的规则变量(文末推荐阅读给出具体分析的往期文链接)
思路二:自下而上地将所有规则变量与目标变量拟合分析,通过IV的降序排序,找出影响较大的规则变量。
分析得出,城市等级是影响逾期目标上升的主要变量。通过分析2019年5月至11月的城市等级Vintage曲线,可以发现“其他城市”较“一线城市”、“二线城市”、“三线城市“对逾期的影响较大,如下图。
第三步:制定策略调整方案
通过上述数据分析,发现贷前风控规则里的“城市等级”规则”其他城市“是导致逾期升高的主要原因。此时容易出现的一个错误决策是拒绝“其他城市”的进件。
原因很简单:这种决策会导致大量的申请被拒绝,对通过率的影响比较大。
最优的策略调整方案思路是:从“坏客户”中挑选出“最坏”的一批客户,且这批客户的占比较少,然后加以拒绝。
按照上述思路,我们可以制定出如下的策略优化方案:
1、进一步分析“其他城市”里,哪一些的城市逾期较高;
2、挑选部分逾期较高的城市做贷前准入规则。
以上,就是逾期升高情况下,策略调优的分析方法。
8.信用多头策略
金融风险管理中,对于一个借款人还款能力的评估十分重视。如果一个人的资产负债比过大,一旦发生资不抵债的现象,金融机构继续对其发放贷款发生违约的风险是极大的。
在体现借款人甚至借款企业还款能力的众多指标中,多头借贷是一项核心指标。
1.什么是多头借贷
多头借贷是指单个借款人向2家或2家以上的金融机构提出借贷需求的行为。多头借贷数据一般至少会粗分成银行类多头借贷、非银类多头借贷。按时间跨度可以分为近7天、近15天、近1个月、近3个月、近6个月、近12个月。
多头借贷除了会统计申请次数,还会统计申请机构数、申请最大间隔天数、申请最小间隔天数、申请记录月份、平均每月申请次数(有申请月份平均)、最大月申请次数、最小月申请次数等。
由于单个用户的偿还能力是有限的,向多方借贷必然蕴含着较高的风险。一般来说,当借贷人出现了多头借贷的情况,说明该借贷人资金出现了较大困难,有理由怀疑其还款能力。
2.多头借贷数据的分析方法
由于多头借贷可以比较有效的反应借款人的还款能力,所以在对借款人信用风险、欺诈风险评估上,基本都有使用多头借贷数据。
多头借贷作为一个衡量借款人的维度特征,可以结合一些逾期指标进行分析。
上图示例1中,对近7天非银机构申请机构平台数进行分析,对申请不同平台数的客户,分别统计客群的分布占比、FPD30%、FPD30-DPD90+%、通过单量、FPD30单量、DPD90+单量以及DPD90+%。通过统计后的数据,分析近7天申请N平台数的客户,其不同逾期指标的变化趋势,如上图示例1中FPD30%的增幅,进一步用于寻找策略切点或者豁免客群的回顾分析。
3.多头借贷数据为何少用于模型
多头借贷少出现在模型变量中,主要有两个方面原因。
第一,多头借贷数据往往被策略同事应用于规则中。
数据建模的目的是从金融弱变量中通过特征工程方法,提炼出有效区分变量,构建评分模型。所以对于多头借贷数据,既然已经运用在策略规则中,实在没必要加入到模型变量。如果读者朋友们看到提交的评分模型报告中有多头借贷变量,那么建模的同事要么没有事先了解已上线运行的策略规则集,要么就是为了模型表现指标(如KS、AR、AUC)好看强行使用。
第二,多头借贷数据往往覆盖度不全。
多头借贷虽然是一个与风险强关联的维度,但其查得率一直被人所诟病。
举一个例子,借款人一个月内在多家机构贷款,作为一个特征,很有可能出现某个人虽然频繁贷款,但并没有被多头供应商捕捉到。一旦这个特征作为模型变量,那么这个变量的噪声就很大了。反而如果做成反欺诈策略,就不需要担心噪声问题,直接选取拒绝线进行截断,最大的影响,也就是没有拒绝掉足够多的用户,而这个影响我们还可以用噪声较小的模型进行弥补。
4.多头借贷数据在策略规则上的应用
多头借贷在策略上一般作为一条策略规则,一个拒绝维度参与到整个风控流程中。不同机构,不同信贷产品,不同场景,对于多头借贷的拒绝线划分都是不一样的。如何找到当下最适合的多头借贷拒绝线,对于风控策略分析人员,是风控工作的核心任务。
仍以上图示例1为例,假设当前对于7天多平台数规则的拒绝线划分在6,即如果7天多平台数>=7则拒绝。如果我们现在希望通过7天多平台数规则豁免一部分客群提升整体通过率,此时的拒绝线cutoff应该划分在哪里呢?
如果不是应对紧急调整通过率的情况,我们可以事先豁免7天多平台数7-10的客户,作为测试样本,用以产生7-10客群通过单量的分布,之后将拒绝线调回6。既可以生成如下统计分析表:
上图示例2中的桔色部分都是通过分析预测出来,比如通过上图示例1中不同多平台数FPD30%的平均增幅0.7%,预测出7-10的FPD30%。
预估计算公式8FPD30%=7FPD30%+0.7%。进一步计算出FPD30量、DPD90量等其他指标。
提醒读者朋友们,因为我们对于资产风险管控最关心的逾期指标还是不良率,所以我们通过FPD30-DPD90+%的迁徙率预测出不同7天多平台数的DPD90+%。对于7-10的FPD30-DPD90+%预估,可以采用MAX(0-6的FPD30-DPD90+%)的预估方法。
在这之后,我们对于不同7天多平台数测算出拒绝线Cutoff的FPD%和DPD%,如下图所示:
对比示例图1和图3的Cutoff_DPD%可以发现,规则拒绝线设定在>=7时DPD%=3.0%,设定在>=8时DPD%=3.0%,设定在>=9时DPD%=3.3%。规则拒绝线设定在>=8的DPD%并没有增加。此时可以尝试建议将7天多平台数的拒绝线调整到7。
当然,这种策略分析方法仍有一些纰漏,比如此方法需要有测试样本进行观测,无法满足快速调整通过率的需求;7天多平台数的FPD30%的增幅实际情况并非线性增长,有经验的策略分析师知道,FPD30%一定会在某一个节点指数级增长。
但正是因为策略分析师通过不断地按照上述方法进行样本测试对照,根据实际情况回顾分析结果,才能不断的积累策略调整经验,才会对规则分布具有一定敏感性。
9.评分的策略应用
评分卡模型的运用,主要是为了解决两大问题:
1、线上借贷业务量逐渐增加的情景下,策略规则已经无法满足更细的切分需求;
2、对于策略无法有效识别的大量灰色客群,需要使用评分卡进行风险判断;
现如今业界使用评分卡模型,更多的是为了解决第二个问题。
从金融机构自身业务发展历程来看,评分卡模型介入风险管理流程常常取决于两个重要的时机:
1、金融机构业务快速发展阶段
在金融机构业务发展的早期阶段,因为业务量小、样本少、风险控制严格等一些主客观原因,使用风控策略规则足以开展业务,所以在业务发展早期评分模型基本没有任何用武之地。
但随着信贷产品的测试期结束,金融机构要加快业务发展,此时不论是大量的客群样本、逾期表现的积累,还是风险控制的政策放松,都因为风险策略无法精准细分的局限性,而需要评分模型的介入,评分卡的应用场景更适用于人工分流。
此阶段的评分模型,常常表现不稳定,比如KS波动较大,Lift下降较快,PSI时常过0.1。此阶段评分模型的优化更多在于分析波动原因,快速重新开发迭代。
2、金融机构业务发展稳定阶段
一旦金融机构度过了新产品的早期和发展期,此时产品市场表现已经趋向稳定,反应在客群分析上,表现出稳定层级的客户画像,此阶段是评分模型介入2.0阶段。
在这个阶段评分模型会在风控流程节点上进行一些调整,比如申请卡模型会进一步的前置,担当部分客群豁免的功能。同时,此时评分模型介入2.0阶段也会降低一些外部征信数据调用成本,控制因三方数据有误而引起的误杀。
此阶段的评分模型,表现较为稳定,KS、Lift、PSI等指标波动较小,对于评分卡的迭代开发需求降低,评分卡的应用更加与业务需求、金融政策以及企业发展战略相关,在保证评分模型稳定性及相对精准度的前提下,使用模型调整系数进行全局模型的调整是此阶段的主要优化办法。
评分模型的cutoff
评分卡分数转换出来,在不同业务发展阶段如何合理的制定评分的cutoff,是评分应用重要的一步。
一般将评分等分后,会有两种方式对评分进行cutoff:一种是参照KS和Cum % bad rate,另一种根据等分后的累计净收益。
第一种参照Max KS和累积bad rate理论上是可以尽可能的将坏客户剔除,对好客群进行授信,但无法根据业务发展需要保证收益最大化。参照不同业务发展阶段的需求,根据评分对收益损失预估,最终确定评分cutoff,我认为这才是精细化的评分应用策略。
第二种制定评分的cutoff,需要联动分析以下图示的一些指标
通过逆向累计净收入指标的分析,结合当下风控政策,综合评定评分的cutoff,将之应用在风控策略上,这样才是更接近业务的评分cutoff。
五、模型与策略的楚河汉界
众所周知,当下评分模型在金融信贷风控领域的应用非常广泛,模型的开发、监控也趋于标准化。评分模型可以为每一位观测对象打出一个评分分数,理论上实现风险与定价的绝对对等,实现个体差异化的风险管理,在这点上,风险策略规则是远不可及的。
此时就有了风险策略与模型之间的争议:模型是否可以替代所有的策略规则?(排除政策准入规则)
风险决策的架构
想要回答上述的争议,首先需要了解目前策略规则与模型在风控决策体系里的应用架构。目前我所见到有两种主流的风控决策应用架构:策略规则+评分模型 & 策略规则+模型规则。
前者策略规则和评分模型是分开的,一般风控流程是先进行策略规则的风险判断,再进入评分模型的风险识别;后者是将评分模型的预测概率(或分数)转变为一个策略规则,与其他策略规则融合在一起进行风险决策。
策略规则的粗放式管理
策略规则作为一种风险识别的方法,其自身具有直观、易用等特性。对于新产品上线前的风险决策,因为没有数据样本的原因,策略规则在风险决策初期起到不可替代作用。但也因为策略规则的设定原理,其自身很难做到风险决策的精细化管理。
以上图风险决策B为例,可以看出策略规则都是XXXX>xxx,这种单维度的风险判断是存在一定的取舍。比如某金融机构的一条多头借贷策略规则设定为:多头借贷平台数>5则执行拒绝,那多头借贷=6的申请客户,就一定会违约吗?
说到这里可能会有读者朋友质疑:我可以设定一些策略规则组合起来判断。没错,这也是风险决策体系下策略规则应用的一种方式,但不论多少维度的组合判断,都必然会对单一维度策略规则进行True or False判断。比如上例中的策略规则变为:多头借贷>5 或 多头借贷>6且性别为男性,则执行拒绝。此时对于多头借贷=6的女性不会拒绝,但对于多头借贷=7且有一定储蓄的男性,就一定会违约吗?
可以看出,如果希望通过策略规则的组合实现精细化的风险管理,就会不断地增加策略规则,最终导致策略规则的复杂和冗余,对于策略优化、回顾并没有正向的影响,这与策略规则的易用、直观等特性产生了矛盾。
评分模型的常见三种盲区
由于策略规则的先天性缺陷,评分模型的出现可以恰当的弥补策略规则的不足,但并不意味着评分模型可以完全替代所有的策略规则。其原因有风控流程的考虑、业务发展的考虑等,在本文我为大家从模型自身的盲区为大家作解释。
建模数据集与实际贷款人之间存在偏差
在中国因为征信体系的不完善,金融机构的模型一般以实际贷款人作为模型数据集,而申请人母集到贷款人子集往往发生较大变化(就算是大家熟知的拒绝推断也只能尽量弥补但不能完全拒绝这方面的误差),模型的判断就会出现一些偏差,此时需要根据策略维度的一些拒绝线,对模型进行一些矫正和保护。
模型数据集来自历史,与未来实际情况存在偏差
模型是基于历史数据找到数据之间的逻辑规律后,对未来事件进行预测。对于具有周期性的金融行业,如果用处于上升期的数据模型预测金融衰退期的事件,必然会与实际情况发生偏差。
举个例子,比如在经济上升或者繁荣期,消费者不仅有工作的单一收入,消费者可以从一些兼职等渠道获取额外的收入来源,此时即使有较高负债收入比的客群仍然可以维持较好的信用表现;但当经济开始进入下滑时期,未来消费者很难继续从其他渠道获取资金,即使历史数据告诉模型、模型告诉决策人,此时的借贷申请人有还款能力和意愿,但商业风险决策者应考虑收紧对于较高负债收入比人群的贷款。
模型对于目标变量的界定与实际商业目标存在偏差
模型为了权衡观察期的代表性和表现期的时效性,在建模时为了囊括最近的贷款数据,在界定“坏账”定义时,仅考虑前12个月的还款表现(有时仅考虑前6个月),此时对于一些中额长期的信贷产品(比如24个月、36个月),模型目标变量的界定与实际商业目标就发生了偏差。
综上,从反面辩证性的角度分析模型与策略,二者缺一不可,谁也不可能完全替代对方。通过科学地搭配,共同构架起严谨的风险决策体系。
利用4月初3天假期时间,经历N次Safari微信公众号后台加载卡顿,最终完成此篇「一文看懂风控策略」万字长分享文。不求绝对精品,只希望能对风控圈内业者或即将成为业者的读者朋友们一点点帮助。