大数据背景下加快我国征信市场发展的思考
作为对数据、技术、方法和制度的一种全面革新,大数据将对征信数据的来源和形态、征信加工处理方式、征信评估技术、征信产品的传播分享渠道以及征信制度基础进行全面重构,从而对征信市场产生深刻影响。当前,大数据已经渗透到社会各个领域,并引发广泛深刻的社会变革。以数据处理为核心的征信行业,不可避免地受到大数据浪潮的洗礼。本文在对大数据及大数据征信的基本特征进行比较研究的基础上,分析了大数据对我国征信市场的影响,并提出了相关政策建议。
一、大数据及大数据征信的基本特征
(一)对大数据的基本认识
对于大数据的定义,不同的机构有不同的理解。全球管理咨询公司麦肯锡认为:“大数据是指大小超出典型数据库软件工具收集、存储、管理和分析能力的数据集”。研究机构Gartner则定义:“大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产”。美国国家标准与技术研究院(NIST)的定义是:“大数据是用来描述在我们网络的、数字的、遍布传感器的、信息驱动的世界中呈现出的数据泛滥的常用词语,它为解决以前不可能解决的问题带来了可能性”。著云台分析师团队认为,大数据是和云计算联系在一起的,因为大数据对大量非结构化数据、半结构化数据的分析,需要依托云计算的分布式处理、分布式数据库和云存储分配给数百甚至上千台电脑同时运算。
而就大数据的特征而言,研究机构和学者也有不同的侧重。研究机构IDC将大数据的特征概括为4V,即海量的数据规模(Volume)、快速的数据流转和动态的数据体系(Velocity)、多样的数据类型(Variety)以及巨大的数据价值(Value)。大数据专家维克托·迈尔-舍恩伯格则从应用角度出发,提出了大数据的三大特征:
分析更多的数据,甚至是所有数据,而不再单纯依赖于样本分析;
适当忽略微观层面上的精确度会让人们在宏观层面拥有更好的洞察力;
建立在相关关系分析法基础上的预测才是大数据的核心,只要发现两个现象之间的显著相关性,就可以创造巨大的经济或社会效益。
综合以上比较权威的定义和特征描述,笔者认为大数据是当今时代数据、技术、方法和制度深刻变革的有机集合。其中数据是基础,技术和方法是手段,制度是保证。
数据层面。大数据首先是一种多元多维数据的集合。这些数据既包括人类历史上留存的原来无法量化而现在可以量化的存量信息,更包括当今时代人类每时每刻产生的增量数据。既包括结构化数据,也包括大量的半结构化和非结构化数据。总量上的海量化、增长上的指数化、形式上的多样化、价值上的巨大化是当代大数据的主要特征。作为一种战略资产,大数据将在现代竞争中日益发挥重要作用。
方法层面。现代信息技术的发展,特别是互联网技术的迅猛发展和互联网去中心化、扁平化、自组织的特性,使得大数据的获取、存储、传输、处理、分析变得越来越便捷,大数据逐渐发展成为一门新学科,一种分析与解决问题、尤其是决策与预测问题的新方法、新手段。由于大大解除了获得数据的范围约束、成本约束,大数据从传统数据处理注重因果分析走向更加注重相关分析,从传统的注重抽样调查变为全样本调查,从传统注重精确变为注重模糊,等等。这种分析方法和思维方式的全新变革,大大深化了人类对自然规律、社会规律和人类自身行为规律的认识。
制度层面。大数据之所以在今天出现,除了技术和方法革命的因素之外,其实还隐含了制度变革的含义。那就是在工业社会向信息社会纵深转型的历史时期,数据逐渐成为与物质、能源同等重要的战略资源,数据的公开、共享与服务成为时代发展的主题。如果没有数据公开的制度,再强大的技术和再先进的方法也无法催生大数据时代的到来。
(二)大数据征信的基本特征
征信理念拓展。传统征信试图通过已知的因果逻辑关系分析历史数据,从而预测信息主体未来的行为。如,传统征信分析个人信用卡还款情况、判断个人的信用状况,作为是否对其开展信贷业务的重要参考,认为个人信用卡还款数据与信息主体未来的信用行为存在比较密切的因果逻辑关系。大数据应用除揭示信息主体的历史数据和行为之间的因果逻辑关系外,还努力发现事物之间的相关性、关联性,并对其加以广泛利用。如,Facebook公司每天可以采集500TB(1TB=1024GB)以上的用户社交行为信息,包括用户的评论和上传的图片、音乐、互动“点赞”等,这些信息表面上看似乎与个人信用没有关系,但深入归纳分析后,能够非常逼真地“描绘”出用户的行为和消费习惯,以及收入、工作和教育情况,从而为判定个人信用状况提供了新视角。
数据来源更广。传统征信技术仅能对结构化的信息进行搜集和加工。信息主要来自金融机构、政府部门和掌握某类信用信息的公共企业,信息量少、来源范围窄。而互联网时代,大数据技术获取数据的范围更加广泛。除传统数据来源外,大数据可以搜集的信息包括:基于互联网的各类交易信息,如网络购物记录;网络搜索及社交行为,如QQ、微博、Facebook平台上的社交信息;专用设备和传感器监测记录,如个人行动轨迹;航班调度信息;股票实时交易数据。这些信息主要以文本、音频、视频和邮件等非结构化的数据形式存在,传统征信技术无法对这类信息进行搜集和加工,难以挖掘蕴含在其中的巨大价值。
数据形式更多。传统征信业务要求数据必须是结构化的,才能加以利用分析。如,传统征信技术要求,给定一系列数据指标,获得这些指标尽可能多且准确的数据项,运用某个稳定的数学模型得出结论。而大数据的数据形式则不仅包括结构化数据,更包含以互联网邮件、网页、图片、视频等形式出现的半结构化和非结构化数据。传统征信技术不能加工利用这些半结构化、非结构化数据,而大数据应用技术可以以较低的成本采集、加工此类数据,甚至在特定的分析过程中可同时交叉处理这类不兼容的数据形式。此外,传统征信要求数据尽可能准确,越准确的数据得出的结论越可靠;数据项不连续或缺失可能导致传统征信模型无法应用。而大数据模糊关联技术超越了数据准确性的传统约束,甚至可以对碎片化的信息以及不完整的数据流进行加工和分析。
数据容量更大。大数据处理的数据规模是传统征信业务数据处理规模的几何量级培增。传统征信业务处理的数据量一般以GB字节计,而大数据处理的数据量一般以PB(1024TB)字节计。中国人民银行征信中心的企业和个人征信系统作为全球最大的征信系统之一,收录了400多万企业和3亿多人的信贷记录,并每日更新,其收录的数据量以TB字节计。然而,其规模与大数据处理的数据规模相比,仍然有较大差距。美国金融业监管局(FNRA)建立的投资者交易记录数据库,可以每天抽取超过200亿条事务记录,并进行跨几天、几周和几个月的趋势分析,以发现可能预示着欺诈的异常交易行为。而Ebay建立的大数据分析平台,每天处理的数据量就高达100PB,远远超出传统征信技术能够处理的数据规模,这样的数据规模是传统征信技术难以进行处理的。此外,互联网时代,大数据的积累速度远超传统数据的积累速度。如,2013年“双十一”单日,支付宝核心数据库集群就处理了41亿个事务,执行了285亿次SQL,生成15TB日志。
征信成本更低。一是降低了数据采集成本。基于互联网的大数据应用技术,不仅降低了采集传统征信数据的成本,而且降低了采集新型非结构化数据的成本,使得加工这类数据成为可能。如抓取网页数据,传统征信技术可能无法做到,或者成本极高,但大数据技术可以利用专门的软件方便地批量抓取。如,Facebook通过Hive每半小时就能扫描105TB的网页数据,而如果依靠人工获取这类信息,成本之高会使企业根本难以承受,且效率极低。二是降低了加工、分析数据的成本。传统征信技术主要依靠改善硬件性能以提高处理大规模数据的分析能力。而硬件设备性能的提高所花费的成本也极高,往往使实力较弱的企业望而却步。大数据时代分布式计算、云计算技术的发展改变了单纯依靠提高硬件设备计算性能以改善计算能力的方式,提高了设备利用效率,大大降低了数据运算成本。同时,云计算、分布式计算也降低了硬件设备的能耗。如,谷歌宣称,由于采用了云计算技术,其计算成本仅为竞争对手的1/100,存储成本仅为竞争对手的1/30(孙健、贾晓菁,2010)。三是提高了信息处理的效率。以互联网为基础的数据搜集能力的改进,不仅降低了传统结构化数据的搜集时间,也降低了非结构化数据的搜集时间。如大数据技术可以快速地完成网页数据抓取。大数据技术、尤其是云计算技术的发展也大大提高了数据加工和分析效率,使以前需要几个月才能完成的数据处理现在只要几个小时就能完成。如,信用卡公司VISA使用大数据处理技术,把以前需要一个月才能处理完成的730亿单信用卡交易信息的处理时间降低到13分钟。Zestfinance公司利用大数据分析和机器学习技术,开发的模型可以同时处理7万个指标以判断借款人的信用状况,模型运算的时间可以短至3秒,比传统方法使违约率降低了40%。
二、大数据对征信市场的影响分析
作为对数据、技术、方法和制度的一种全面革新,大数据将对征信数据的来源和形态、征信加工处理方式、征信评估技术、征信产品的传播分享渠道以及征信制度基础进行全面重构,从而对征信市场产生深刻影响。
(一)市场主体不断增加,市场竞争趋于激烈:
大数据时代我国征信市场将进入新的“蓝海”,越来越多的机构将以自身的技术优势进入征信市场。可以预见,在大数据时代,我国征信市场将迎来一个主体创新活跃、市场竞争加剧的“春秋战国”时期。创新路径无外乎以下三种:一是传统征信机构向大数据征信延伸。大数据技术发展对传统征信机构提出了严峻的挑战,也提供了变革的机遇。传统征信机构唯有主动迎接挑战,积极抓住机遇,充分利用大数据应用技术,提升自身的产品创新能力和服务水平,才不至于在未来的竞争中被边缘化。二是大数据公司、互联网公司向征信渗透。大数据技术的发展,使得与传统征信业务看似无关的互联网公司介入了征信领域,成就了征信新业态。新兴的互联网公司在数据的搜集、加工技术、征信产品的供给、服务类型和形态等方面,能够采用不同于以往传统征信机构的经营模式。其往往通过提供特色产品,专注于某个细分的征信市场,从整体上扩大征信市场。如,腾讯公司,通过分析其用户使用QQ的行为,对用户的身份进行识别验证,准确率高达95%以上,为未来网上开立银行或证券交易账户提供了重要的身份验证参考。新兴互联网公司通过对非传统征信数据的挖掘,创新征信服务和产品,产生了征信市场新业态,进一步扩大了征信市场的服务领域。三是传统征信机构和新兴互联网公司的融合。在大数据应用的思维和技术方面,互联网公司有着传统征信机构无可比拟的优势,而传统征信机构在征信市场中的资源积累同样是互联网公司不能轻易取代的,只有二者相结合,才能更好地满足市场对征信服务的新要求,征信市场的发展最终将自然推动两类机构的融合,共同拓展征信市场。
表1:传统征信和大数据征信的比较 比较项 传统征信 大数据征信
(二)征信产品更加丰富,征信服务不断深化
大数据以革新的技术进行数据挖掘,不仅对传统数据的挖掘更加深入,而且发现了新的数据形式所包含的巨大价值,从而产生了更丰富的征信产品。大数据通过对传统数据的挖掘及非结构化的数据分析,生产风险预警、风险评估、信用业务决策等增值产品,形成对传统征信产品的重要补充。如,Equifax运用大数据技术加工、分析数亿消费者杂乱无章的信息,包括消费者杂志订阅情况、地址变更情况、购买零售商品情况、纳税申报单类型等,以预测消费者的支付能力和消费意向。同时,征信产品供给的增加也激发了市场对征信产品的需求。腾讯公司利用其公开的数据平台,通过实时监测客户网络社交行为,预测客户的信用风险并预警,满足了某些互联网公司了解客户的需求。大数据使征信产品更加丰富,激发了市场供求,促进了征信市场向新领域的拓展。
(三)信用意识不断提高,征信需求不断扩大
(四)风险问题日益突出,市场监管面临挑战
在大数据时代,随着更多敏感信息的挖掘、征信机构的增加、市场竞争的加剧,风险问题将日益突出,市场监管的难度将加大,监管面临的挑战日益严峻。风险点主要体现在四个方面:
一是征信机构非法营运所带来的法律风险。互联网本身的开放性和便利性在促进征信市场发展的同时,也增加了信息泄露和滥用的风险。一些敏感信息很容易在信息主体未知的情况下被分析、使用,甚至用于非法目的,由此带来严峻的信息安全保护和消费权益保护问题。
二是征信机构由于治理结构不完善、内控制度不健全所带来的业务操作风险和人员道德风险。
三是征信机构及相关合作部门核心技术水平及网络维护不力导致的信息及网络安全风险。如信息主体的信贷记录和非银行信息等数据在通过互联网传输的过程中,存在因黑客攻击、网络病毒而导致的信息被非法访问、盗取和篡改的风险。
四是信息垄断技术上的征信垄断导致的市场不正当竞争风险。一些互联网企业凭借其市场垄断地位获取的垄断信息介入征信市场,形成垄断优势,造成征信供给的垄断,扼杀了征信市场的创新活力和市场活力,造成双重垄断的市场格局。
三、顺应大数据时代要求、加快我国征信市场发展的建议
征信市场是我国市场经济体系的重要组成部分,是全面深化改革进程中进一步发挥市场决定性作用和推进国家治理体系和治理能力建设的重要基础。我国征信市场建设从20世纪90年代开始起步,经过20多年的不断探索,尽管取得了不小成绩,但总体上仍处于发展的初级阶段,市场主体少、规模小,市场广度和深度不足、结构不合理,服务较单一,法制不完善,活跃度不高,远不能满足经济社会发展对信用信息产品的要求,与发达国家相比更是存在较大差距。数据奔流的大数据时代给我国征信市场发展带来了挑战,更带来了跨越发展的难得机遇。我们应该顺应大数据时代的要求,积极应对新挑战,主动抢抓新机遇,加快促进我国征信市场健康发展,抢占征信业发展的制高点。作为我国征信市场的监督管理部门,人民银行肩负着制定游戏规则、营造市场环境、加强市场监管、推动市场发展的重要职责,应该审时度势、因势利导、改革创新、促进发展。
(一)着力发展市场化机构,加快完善征信组织体系
从发达国家的经验来看,市场化征信机构是征信市场发展的主体,也是征信市场活力的源泉。鼓励市场化征信机构的发展,通过市场的优胜劣汰,最终形成一定数量的治理结构完善、内部控制严密、业务模式清晰、具有相当竞争实力的品牌征信机构,是我国征信市场发展的必由之路。在大数据时代,各类资本进入征信市场的积极性较高,为加快完善我国征信市场组织体系、提升征信市场的供给水平提供了很好的契机。笔者认为,在目前我国征信机构数量少、规模小的情况下,保持开放的心态,在守住信息安全和保护金融消费权益底线的基础上,应尽量减少不必要的限制,大力鼓励各个地区、各种模式的各类资本进入征信市场,促进各种市场化征信业态的蓬勃发展。这不仅有助于完善我国征信市场的组织体系,促进征信市场的合理竞争,改进征信市场服务,从而有利于我国征信市场的尽快成熟;也有助于监管部门尽快积累监管经验,提高监管履职能力。
(二)鼓励产品创新,加快完善征信服务体系
一是鼓励传统征信机构运用大数据技术,充分挖掘现有数据资源,创新征信产品,服务新的市场需求。尤其是金融信用信息基础数据库作为目前我国最大的征信资源中心,应充分利用大数据技术,深入挖掘数据价值,创新征信产品,提高服务水平。
二是鼓励新兴互联网公司利用自身的数据和技术优势,开发大数据征信产品,以自身专长服务特定征信细分市场。
三是鼓励传统征信产品与大数据征信产品的复合创新。
从以上分析可以看到,传统征信与大数据征信其实各有所长,并不存在相互替代的关系。为了满足征信市场更全面、更多样化的信用信息需求,应该积极鼓励传统征信产品与大数据征信产品的复合创新,从而提升我国征信市场的服务水平。
(三)加强法制建设,加快完善征信法规体系
随着大数据技术的发展,信息的公开与封锁、保密与泄密、持有与泄露、使用与滥用、授权与非授权等各种矛盾和纠纷相应增加,征信市场中信息提供者、信息加工者与信息消费者等各种参与主体之间的利益诉求多元化,需要尽快加强相关法制建设,依法调解各利益主体间的利益诉求。在大数据时代,我国征信法制建设应该重点解决以下几个问题:
一是信息公开问题。如前文分析,如果没有信息公开作为保障,再强大的技术和再先进的方法也难以催生大数据的真正发展。所以,应该通过加快立法,打破政务信息、商务信息、社会信息、司法信息等各类信息的部门壁垒,促进各类信息依法公开与互联共享。这是主动迎接大数据时代来临的基本前提。
二是权益保护问题。大数据时代,如何保护相关主体的权益成为一个极为突出的问题。应该通过立法,尽快破解征信机构在保护企业商业秘密和个人隐私以及产品研发之间面临的两难选择,明确当企业商业秘密和个人隐私受到侵害时的相应申诉渠道、申诉程序和司法救济方式。
三是司法惩处问题。要通过立法,尽快明确对无故封锁数据和非法采集、窃取、泄露、传播数据等损害相关主体权益的行为的具体惩罚措施。
(四)筑牢风险防线,加快完善征信监管体系
征信业是经营市场主体信用信息的特殊行业,由于容易涉及企业秘密、个人隐私等敏感问题,因此其也是一个高风险行业。在大数据时代,随着企业和个人越来越全面的信息被采集、存储、循环利用,给企业秘密和个人隐私带来了巨大威胁,从而对监管体系提出了更严峻的挑战。因此,要从保护信息安全、维护消费权益的角度出发,筑牢风险防线,加快构建以征信机构完善的法人治理结构和有效内部控制为基础、以征信业行业自律为补充、以监管部门牌照管理以及现场和非现场监管为主导的征信管理监督体系。
一是筑牢征信机构防线。征信机构完善的公司治理和内部控制是防范征信风险的第一道防线。从监管部门来说,应该加强对征信机构公司治理和内部控制的严格监管。
二是筑牢行业自律防线。未来征信市场必将快速拓展,征信行业的相关法规及监管能力或不能实时跟上行业发展的需求,给征信监管工作带来巨大挑战。因此,成立征信行业协会,运用市场纪律约束的力量,协调征信机构之间、征信机构和监管机构之间的关系,促进征信行业技术和业务交流,加强行业自律,对行业不当行为进行惩戒,有助于征信市场的健康发展。
三是筑牢监管防线。面对大数据时代市场主体增多、市场竞争加剧、市场风险加大的新挑战,应该加快探索以规范征信市场竞争、保护信用信息主体权益为目标的、既符合大数据时代特点又适合我国国情的、现场与非现场相结合、事前准入、事中监管和事后处置相连接的征信监管制度。
(五)深化配套改革,加快完善征信营商环境
营造良好的需求环境。征信需求始终是征信市场发展的动力。征信市场的需求按照来源来分,大致可以分为两类:一类是市场自发的需求,另一类是行政引导的需求。对于还处在发展初级阶段的我国征信市场而言,既要注重市场自发需求的培育、也要通过适当的行政手段来引导需求。当前,为了营造良好的需求环境,除了应继续落实好在行政管理事项中使用信用记录和信用报告的有关要求之外,还应该引导各相关主体加大在经济社会管理事项中使用信用记录和信用报告的力度,一方面通过信用管理改进经济和社会管理的效能,另一方面扩大征信市场需求。
营造良好的数据环境。当前我国信息割裂、信息垄断现象比较严重,不同部门、机构掌握不同的信息资源,不能实现资源整合和信息的充分利用。如,金融信用信息基础数据库掌握个人信用交易的历史数据,公检法掌握个人违法记录,水电管理部门掌握水电缴费记录,淘宝网掌握个人、企业商品交易信息,腾讯公司掌握个人社交信息等。一方面,监管机构应鼓励和推动相关机构及时公开共享相关信息,鼓励征信机构多角度开展资源整合,盘活信用数据资源,真正发挥数据的作用;另一方面,监管机构也要未雨绸缪,防止信息垄断企业携垄断优势进入征信市场形成征信再垄断。
营造良好的人才环境。人才是市场创新发展的关键。在大数据时代,信息技术日新月异,征信模式不断创新,对征信人才的需求不断增加。要通过各种办法,有意识地培养大批既掌握大数据技术和方法、又熟悉征信业务和法律法规的复合型人才。
营造良好的权益保护环境。要从保护信息主体的合法权益出发,充分考虑举证责任与举证能力的现实要求,加快建立健全信用信息主体和消费者的维权组织、维权渠道、维权制度,加大对泄露企业秘密和个人隐私行为的打击惩处力度。
数据分析咨询请扫描二维码
《Python数据分析极简入门》 第2节 5 Pandas数学计算 importpandasaspdd=np.array([[81,&n ...
2024-11-23数据分析涉及多个方面的学习,包括理论知识和实践技能。以下是数据分析需要学习的主要方面: 基础知识: 数据分析的基本概念 ...
2024-11-22数据分析适合在多个单位工作,包括但不限于以下领域: 金融行业:金融行业对数据分析人才的需求非常大,数据分析师可以从事经 ...
2024-11-22数据分析是一种涉及从大量数据中提取有用信息和洞察力的过程。其工作内容主要包括以下几个方面: 数据收集与整理:数据分析师 ...
2024-11-22数据分析师需要掌握多种技能,以确保能够有效地处理和分析数据,并为业务决策提供支持。以下是数据分析师需要掌握的主要技能: ...
2024-11-22数据开发和数据分析是两个密切相关但又有所区别的领域。以下是它们的主要区别: 定义和目标: 数据开发:数据开发涉及数据的 ...
2024-11-22数据架构师是负责设计和管理企业数据架构的关键角色,其职责涵盖了多个方面,包括数据治理、数据模型设计、数据仓库构建、数据安 ...
2024-11-22数据分析师需要具备一系列技能,以确保能够有效地处理、分析和解释数据,从而支持决策制定。以下是数据分析师所需的关键技能: ...
2024-11-22数据分析师需要具备一系列技能,以确保能够有效地处理、分析和解释数据,从而支持决策制定。以下是数据分析师所需的关键技能: ...
2024-11-22数据分析师需要具备一系列的技能和能力,以确保能够有效地处理、分析和解释数据,从而支持业务决策。以下是数据分析师所需的主要 ...
2024-11-22需求持续增长 - 未来数据分析师需求将持续上升,企业对数据驱动决策的依赖加深。 - 预测到2025年,中国将需要高达220万的数据人 ...
2024-11-22《Python数据分析极简入门》 第2节 4 Pandas条件查询 在pandas中,可以使用条件筛选来选择满足特定条件的数据 importpanda ...
2024-11-22数据分析师的工作内容涉及多个方面,主要包括数据的收集、整理、分析和可视化,以支持商业决策和问题解决。以下是数据分析师的一 ...
2024-11-21数据分析师必须掌握的技能可以从多个方面进行归纳和总结。以下是数据分析师需要具备的主要技能: 统计学基础:数据分析师需要 ...
2024-11-21数据分析入门的难易程度因人而异,总体来看,入门并不算特别困难,但需要一定的学习和实践积累。 入门难度:数据分析入门相对 ...
2024-11-21数据分析是一项通过收集、整理和解释数据来发现有用信息的过程,它在现代社会中具有广泛的应用和重要性。数据分析能够帮助人们更 ...
2024-11-21数据分析行业正在迅速发展,随着技术的不断进步和数据量的爆炸式增长,企业对数据分析人才的需求也与日俱增。本文将探讨数据分析 ...
2024-11-21数据分析的常用方法包括多种技术,每种方法都有其特定的应用场景和优势。以下是几种常见的数据分析方法: 对比分析法:通过比 ...
2024-11-21企业数字化转型是指企业利用数字技术对其业务进行改造和升级,以实现提高效率、降低成本、创新业务模式等目标的过程。这一过程不 ...
2024-11-21数据分析作为一个备受追捧的职业领域,吸引着越来越多的女性加入其中。对于女生而言,在选择成为一名数据分析师时,行业选择至关 ...
2024-11-21