大数据背景下的风控与征信 专访中科院院士、北大元培学院院长鄂维南教授
访谈:鄂维南,中国科学院院士,北大元培学院院长,普林斯顿大学数学系和应用数学研究所教授。
大数据和大数据技术
王晓蕾(以下简称“蕾”):很高兴鄂院士在百忙中接受我们的采访。根据我的初步理解,目前大数据在金融中的运用,主要是通过大数据做风险控制,建立风险模型预测还款可能性,从而决定授信额度和定价。您怎样看待大数据在风险管理中的应用?
鄂维南(以下简称“鄂”):要讲清楚这个问题,我们首先要区别一些概念,首先是大数据和大数据技术,前者是指的数据及可用于风险管理的数据问题,后者是指一些诸如机器学习、神经网络、支持向量机(SVM)等大数据算法。
从数据源的角度,我认为,与个人有关的信息从外到里可以分为三层:第一圈是关于个人的所有信息,第二圈是关于个人的所有履约信息,第三圈是信贷履约的信息。在之前传统的风控中,我们一般利用最里圈的信贷履约信息,加上部分个人基本信息等来预测信贷违(履)约情况。随着互联网和信息技术的发展,部分方便可得的外圈信息,对于内圈的履约预测慢慢地被证明有一定的效果,例如打车的履约情况对信贷履约的判断是一个依据,因此大数据风控随之逐渐兴起。但对于不同圈别数据的跨圈使用,特别是外圈数据往内圈使用的过程中,要特别解决法理约束和本人授权两个问题,这样有利于各种数据在风险评估领域中的可持续使用。
王:您这样说非常清楚。目前,部分放贷机构对替代性数据(Alternative Data)的使用,我的理解就是对非现金化的债务履约信息的使用。当消费者缺乏信贷债务及其履约信息时,可以利用这些水电煤等先消费后付款的信息,通过考察消费者的重复履约意愿和能力来进行信贷风险管理。我们熟知的美国泽斯塔(ZestFinance)金融公司,所使用的“替代性”数据主要包括水电燃气费等先消费后付款消费信息,当然,信息主体本人授权是一个基本原则。
鄂:以上说的是大数据问题,再从大数据技术角度来看,任何大数据方法用于信用风险的评估,要满足三个条件:一是明确的,对评分建模的方法论、过程和数据使用上是明确的,对监管、对公众是应该公开的:二是准确的,建立的模型要对不同风险状况的人群有区分能力和排序能力;三是稳定的,数据、方法和模型在人群、时间跨度上是稳定的。从传统的逻辑回归,到决策树,再到机器学习等大数据方法的使用,要始终坚持开发出来的模型“明确、准确和稳定”的三大特点。
王:据我了解,有些利用大数据中的机器学习技术开发的模型是明确的,有些是不明确的。
鄂:是的。总体而言,对于大数据和大数据技术,目前,在风险控制中,可以是在遵守一定规则上开放性使用,但是对于征信领域,在数据的来源上建议适当保守些,这主要是征信对评分开发模型的明确性要求更高。但是尽管如此,在数据的处理方法上,都可以进行不同的尝试和探索,因为大数据技术的发展,就是将可以使用的信息,包括传统的信息和现实生活中映射到互联网的各种信息极大的简化为一个分数,供放贷机构高效、便捷的使用。
风控与征信之异同
王:按照您刚才说的,我理解是,一些热门的大数据技术可以做风控、但不能做征信,为什么这么说呢?
鄂:要理解这个观点,得先从风控和征信的本质特征出发来看。我们知道风控是放贷机构自己的事情,而征信则是第三方机构的信息服务,后者是为前者的风控服务的,对于信息的使用及其借款人对信息的知情权等方面,两者是有根本性的区别的。所以我刚才讲了,大数据技术开发的评分模型可以满足准确、稳定的要求,但是在明确、可解释性方面,尚待市场的检验。
放贷机构为了风控,可以竭尽所能地收集各类或真实的信息或待证实的噪音,且对借款人作的放贷决策也是完全基于自己的商业目的考虑。但是,征信机构对信息的收集、加工和对外提供,则是完全按照市场和放贷机构认可、信息主体知情的方式进行,征信机构向放贷机构提供的所有针对借款人个人的信息,如基础性的信用报告,是基于基本客观事实的汇总,经得起借款人本人质疑、挑战的,信用报告的内容、流程、流转过程和使用判断是受到监管的。
此外,我知道美国的征信机构一般是先提供了经得起检验的信用报告,为信息主体本人提供信用报告查询服务之后,再提供基于信用报告标准化解读的各类信用评分服务,我想也是有这样一个明确性要求在里面。为了确保个人信息没有被滥用,评分流程的基本方法、理念、结果是需要对外披露,并接受监管部门的全程监管的。特别是当放贷机构基于征信机构的服务(如信用报告、个人信用评分),做出了不利于借款人的决策时,如拒绝借贷、提高费率、降低额度等,消费者是有知情权的。
王:非常赞成您的观点,保护借款人(即信息主体)对征信系统本身及其本人信息被采集使用情况的知情,是征信行业的国际惯例,也是保证第三方征信机构独立、可信赖地位的基石。
鄂:是的。在大数据的背景下,各种可以预测违约的数据在丰富性、广度和深度上出现了极大的增加,但是对大数据的使用不会也不应该动摇刚才提到的征信与风控间的基本框架。例如,一些大型互联网公司,掌握了大量的个人互联网行为信息,这些信息可以用于公司内部的风险管理和放贷决策,但是如果一旦用于第三方征信,则相关互联网信息的使用和对外提供,必须经受技术、用户、法律、认知等社会方方面面的考验,满足公平公正合法等基本要求。
王:但是我们目前这方面的法律规定还不太完善。
鄂:没有法律规定也不一定是可以为之的,征信机构的活动涉及消费者的切身利益,如果因为征信机构的服务,如提供了消费者不知情或认为不准确的信息,导致消费者的金融消费,如放贷、车贷等受阻,我认为消费者也是有权告第三方征信机构的。征信不是闹着玩的,不建议目前部分机构采取抱着试试看的态度,来看哪些数据和技术可用于风险评估,并递延到征信服务上,有些事情要事先考虑清楚。
王:在大数据时代,征信机构利用大数据技术对借款人风险水平的预测模型,如果经过市场检验是有效的情况呢?
鄂:这是另一个问题,即便是对一群人的模型预测有效,但是用不成熟、不被大家接受的新技术和新方法,对个人进行风险预测并给个人的经济生活带来影响,征信机构也有被司法起诉的风险,包括美国费埃哲(FICO)公司当时也是这样的,模型和技术要有可解释性,符合社会公众的可接受度,这样才能站得住脚。从有效性角度来看,社交网络信息对于营销、对于反恐等被证明是有效的,但是对于征信的有效性,还是一个有待证明的另一个问题。
王:大数据在风控运用上的一些创新确实存在,例如,传统上主要是利用信用信息、财产信息来预测违约,目前依托信息和技术进行了一些创新,如有机构发现借款人手机的被叫时长、朋友圈的信息和违约有一定的关系,而将这些变量作为预测变量入模分析。
鄂:您说的可能是某个机构根据某些信息得出的一个初步结论,可能会被常识支持,但是这仅仅是一些数据环境下的一个判断,是否经得起检验、站得住脚,我认为还不能过早下结论。即便有效,我还是那个观点,这个结论可以被放贷机构的风控所用,但是否可为征信机构所用,还用待观察。
王:就我们而言,征信系统一是收集放贷机构等无论怎么努力也基本得不到的信息,如借款人在另一家放贷机构的借款信息,之后供放贷机构共享,二是收集放贷机构等可以采集但是成本较高的信息,如法院判决信息,方法是统一采集、大家共用。征信系统提供的以上两部分信息都是放贷机构的外部信息一部分,放贷机构风控所使用的信息一定远远超过征信机构提供的信息。
鄂:是的,征信机构的信息永远是放贷机构风控的一个重要信息和工具的来源。其实,目前使用大数据模型中,我认为很多变量是用来验证信息的真伪的,但是,预测违约率还是用传统的信贷信息一些核心变量,目前来看,预测未来履约的信息范围和方法论并没有真正扩大和突破。
王:非常感谢您的交流。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
“用户旅程分析”概念 用户旅程图又叫做用户体验地图,它是用于描述用户在与产品或服务互动的过程中所经历的各个阶段、触点和情 ...
2025-01-22在竞争激烈的商业世界中,竞品分析对于企业的发展至关重要。今天,我们就来详细聊聊数据分析师写竞品分析的那些事儿。 一、明确 ...
2025-01-22在数据分析领域,Excel作为一种普及率极高且功能强大的工具,无疑为无数专业人士提供了便捷的解决方案。尽管Excel自带了丰富的功 ...
2025-01-17在这个瞬息万变的时代,许多人都在寻找能让他们脱颖而出的职业。而数据分析师,作为大数据和人工智能时代的热门职业,自然吸引了 ...
2025-01-14Python作为一门功能强大的编程语言,已经成为数据分析和可视化领域的重要工具。无论你是数据分析的新手,还是经验丰富的专业人士 ...
2025-01-10完全靠数据决策,真的靠谱吗? 最近几年,“数据驱动”成了商界最火的关键词之一,但靠数据就能走天下?其实不然!那些真正成功 ...
2025-01-09SparkSQL 结构化数据处理流程及原理是什么?Spark SQL 可以使用现有的Hive元存储、SerDes 和 UDF。它可以使用 JDBC/ODB ...
2025-01-09在如今这个信息爆炸的时代,数据已然成为企业的生命线。无论是科技公司还是传统行业,数据分析正在深刻地影响着商业决策以及未来 ...
2025-01-08“数据为王”相信大家都听说过。当前,数据信息不再仅仅是传递的媒介,它成为了驱动经济发展的新燃料。对于企业而言,数据指标体 ...
2025-01-07在职场中,当你遇到问题的时候,如果感到无从下手,或者抓不到重点,可能是因为你掌握的思维模型不够多。 一个好用的思维模型, ...
2025-01-06在现代企业中,数据分析师扮演着至关重要的角色。每天都有大量数据涌入,从社交媒体到交易平台,数据以空前的速度和规模生成。面 ...
2025-01-06在职场中,许多言辞并非表面意思那么简单,有时需要听懂背后的“潜台词”。尤其在数据分析的领域里,掌握常用术语就像掌握一门新 ...
2025-01-04在当今信息化社会,数据分析已成为各行各业的核心驱动力。它不仅仅是对数字进行整理与计算,而是在数据的海洋中探寻规律,从而指 ...
2025-01-03又到一年年终时,各位打工人也迎来了展示成果的关键时刻 —— 年终述职。一份出色的年终述职报告,不仅能全面呈现你的工作价值, ...
2025-01-03在竞争激烈的商业世界中,竞品分析对于企业的发展至关重要。今天,我们就来详细聊聊数据分析师写竞品分析的那些事儿。 一、明确 ...
2025-01-03在数据分析的江湖里,有两个阵营总是争论不休。一派信奉“大即是美”,认为数据越多越好;另一派坚守“小而精”,力挺质量胜于规 ...
2025-01-02数据分析是一个复杂且多维度的过程,从数据收集到分析结果应用,每一步都是对信息的提炼与升华。可视化分析结果,以图表的形式展 ...
2025-01-02在当今的数字化时代,数据分析师扮演着一个至关重要的角色。他们如同现代企业的“解密专家”,通过解析数据为企业提供决策支持。 ...
2025-01-02数据分析报告至关重要 一份高质量的数据分析报告不仅能够揭示数据背后的真相,还能为企业决策者提供有价值的洞察和建议。 年薪 ...
2024-12-31数据分析,听起来好像是技术大咖的专属技能,但其实是一项人人都能学会的职场硬核能力!今天,我们来聊聊数据分析的核心流程,拆 ...
2024-12-31