24小时免费电话:22222222
网站首页 关于我们 新闻中心 政策法规 在线咨询 人才招聘 经营范围 联系我们
 
公司动态
行业动态
 
博亿堂官网_博亿堂官网老虎机_欢迎来到博亿堂bet98官网
电话:022-22266222
传真:022-22266222
业务咨询:13287676226
业务QQ:1398853666
邮箱:yulecheng@163.com
地址:广东省深圳市
PINTEC任然:大数据风控模型研发的三大关键点

(原标题:PINTEC任然:大数据风控模型研发的三大关键点)
10月26日,PINTEC集团读秒智能信贷科学决策负责人任然参加香港金融科技周活动,并发表了名为“Building Credible Credit Risk ModelsUsing AI And Intelligent Algorithms”的主题演讲,介绍了大数据风控模型研发的三大关键点。以下是演讲中干货内容的翻译。
PINTEC任然:大数据风控模型研发的三大关键点
大家好,我是PINTEC集团旗下读秒的科学决策部负责人任然。读秒是一个智能信贷解决方案,核心是一种纯线上的贷款实时审批决策系统。以机构客户的数量来计算,PINTEC已经是国内最大的智能信贷服务商。
通过这几年的探索,我们逐渐总结出一些大数据风控系统研发过程中的关键节点,希望能对行业有所启示。
从大数据到快数据
要实现实时决策,一个关键点是要确保系统可以处理很多数据。现在总说“大数据”(big data),但我们认为有时候“快数据”(fast data)更重要。在互联网时代,整个系统要高速的响应需求,面对瞬间涌入的需求保持robust,这就不仅仅是有“大量”数据的问题,而是怎么样把这些数据源实时地联系在一起,确保数据进来时系统可以实时处理,这个事情是更复杂的。
因为数据科学仅仅是数据决策的一个算法环节,但是算法的实现要有很多基础设施作支撑,就像人一样——人的正常活动不仅靠的是大脑,也需要骨骼、血液作支撑。我们能在极短的时间内做出授信决策,很大程度上依赖于我们有一个强悍的系统作支撑。
我们的技术部门会对授信环节作优化设计。根据我们的设计,整个授信环节可以分成很多步骤,如果能在早期的授信环节,通过较少的数据对用户的风险作出判断,那这就不会经过后面的操作,决策作出的就比较快。比如说,用户如果在黑名单之列的话,我就可以比较快地把他拒绝掉,这种情况下整个体验会非常快。
我们还会对技术层面的作优化,很多指标计算、报告的拉取策略都是在并行操作的。指标对数据源的依赖也进行了良好的配置,很多指标都是以“流式”的方式进行计算的,即只要当符合一个指标计算需要的条件被满足的时候,它就可以很快地被计算出来,不是等到所有的数据都准备好了之后才开始计算。
总之,要做到“快数据”,整个计算引擎都是需要经过高度优化的。
“乐高式”的分布式模型
我们所做业务的所有链条里,人工智能技术和数据是贯穿整个产品生命线的。我们的模型结构采用分布式的结构,也就是说,无论客群、渠道如何变化,我们的模型基本上可以保证在一定的稳定性水平上。
分布式模型的第一个考量是灵活性。因为模型里有很多的子模型(sub-models),我们就可以根据合作伙伴、合作模式的不同,把子模型非常松散地作排列组合——像乐高玩具一样——形成最优的方案。这样的处理会比较标准化、模块化,像乐高玩具一样可自由拆分组合。
比如说有一些合作伙伴,基于用户体验的考量,不想用基于用户地理信息的行为数据。使用分布式的模型结构,我们就不需要每对接一个渠道方都重新做一次模型了。
第二个考量是模型的稳定性。因为我们的一个模型可能会接四十多个数据源,有时数据的底层是非常“脏”的,并不是拿来就能用的,如果底层的数据出现抖动的话,可能会对模型产生比较大的影响。使用分布式结构模型,如果一个子模型效果或稳定性上出现问题,我只要把这个子模型拆开,换一个模块就行,这样可以保证其他的子模型不受影响。
第三个考量是模型的效果。机器学习允许我们用不同的方法——比如神经网络、深度学习、增强学习、决策树等各种的算法——去解决同一个问题。具体场景下哪个办法好,是在实践的过程中发现的。
基于同样的数据,我们可以用不同的方法建不同的子模型,然后让模型和模型间互相PK。如果某一个模型效果好,我可以动态地去调整更多的流量给它,这也是套方法论,叫在线学习(online learning)。
Online learning在广告业其实是非常普遍的东西,比如说广告业会做AB测试,去统计点击量,看那一条广告效果更好,就加大它的出现频次,这其实是让模型自己去学习的方法。
但在风控领域中,据我所知online learning目前运用得很少。大家会觉得风控模型这个东西比较“神圣”,不会去允许它做太多的动态调整。所以交叉学科的经验借鉴,有时对建模也有帮助。
兼用传统逻辑回归与机器学习算法
我们做模型时,会兼顾使用传统的逻辑回归方面的算法,和一些比较先进的机器学习的算法,比如说bagging,boosting,包括最近因为AlphaGo Zero火起来的增强学习(reinforcement learning) 。
传统的风控模型都是线性模型,比如逻辑回归,它的特点是高度结构化和可解释性。但问题是,如果一个变量与target 之间不是线性的关系,我们在把它变成线性关系的过程中会损失很多信息。而且这种情况下,当我们去做特征工程(featureengineering)的时候,是需要人去想的。 但人总有局限性,你看到想到的东西并不是全部,有时它甚至是错的。
机器学习、深度学习的模型,它的好处是能自我适应、自我学习,但这类模型基本上是一个黑盒子。因为模型的结构非常复杂,比如说一个决策树模型里可能有一千棵树,每一棵树可能会有三四层——结构上非常复杂以至于人没有办法去描述它。这可能也是为什么一些传统银行里的从业人员,用AI模型的时候会比较没有安全感,因为他看不到这个模型里是怎么样的,总觉得要自己掌控的才能放心。
具体到个人的信用评分,比如说我们给一个人信用打了700分。至于他为什么被打了700分,在逻辑回归里很简单可以看到变量的情况,但是在机器学习的boosting或者bagging里是没有办法去了解的,它所有的feature,所有的数据选择,都是机器去完成的。我们最终只要看模型的效果,也就是模型输出的违约率,我不用管它是怎么实现的。
读秒系统上线两年的时间,我们的模型有过四个大的改版。被开发用来预测使用一系列信贷产品后的偿还行为的信用评分叫“基本评分”(generic score)。反应测试效果的ROC 曲线越往左上方突出,表示模型效果越好。我们发现,读秒早期的3.1版模型的ROC 曲线基本上是贴着“基本评分”的。而现在第4个版本的模型比3.1版本准确率要高将近50%。
在我们新版本的三个模型(M1, M2, M3)中,模型表现最好的M3中,我们就是既用了传统的逻辑回归,也结合用了人工智能的方法。所以我们不会把传统的风控办法都丢掉,我们只是要去拥抱新的技术。
做客户系统中的一颗金融科技芯片
PINTEC的商业模式,是要为机构客户提供金融科技的解决方案。我们的服务一端连接的是一些商业机构,像携程、中国电信、小米这样的互联网或其他行业巨头,我们可以帮助这些公司为用户提供多一种金融服务的选择。而且读秒信贷决策系统不仅仅应用在线上消费环境中,目前也渗透到线下场景之中。
PINTEC服务的另一端连接金融机构,我们会为金融机构带来线上线下的客户,帮他们做基于大数据和人工智能的风控管理,还会延展到前端的获客,中端的客户留存,和后续的催收等一系列过程。我们可以帮助金融机构为更广泛的用户群体服务,这是一些传统机构所不具备的。

PINTEC提供的是类似芯片一样的“嵌入式”服务,将我们自己的能力封装成一个金融科技的芯片,嵌入到合作伙伴的业务流程之中,帮助他们实现智能金融,这也是我们提出的POWERED BY PINTEC服务战略的内涵。 

 
友情链接:
版权所有:博亿堂官网_博亿堂官网老虎机_欢迎来到博亿堂bet98官网   技术支持:博亿堂官网_博亿堂官网老虎机_欢迎来到博亿堂bet98官网