
大数据风控已显山露水 哪些数据才是风控所需?
美国科学家近日宣布探测到引力波的存在,如获证实,将是物理学界里程碑式的重大成果。一时间,“引力波”成为热词,相关的知识普及也随之而来。然而,5年前国内一位下岗工人在节目上提及引力波时,却遭到了在场嘉宾的讥讽,这位工人还没有对自己的“发明发现”做详细阐述,便被频频打断和否定,只得匆匆下场。五年后的如今,引力波被捕捉到有存在的痕迹,着实是戏剧化的一幕。
当引力波还是一个新鲜事物时,人们没有预见到它的未来,甚至有人无知地直接否认它的存在。这让我也想到“青蒿素”,在屠呦呦教授没拿奖之前也无人所知。然而,纵然当初无人问津,如今可不是大放异彩。
如今的“大数据风控”这一词,或许就如五年前的“引力波”、一年前的“青蒿素”一样,尚处于一个初生试水、萌芽之姿的阶段,机遇与挑战并存。一方面,不可否认地存在鱼龙混杂、乱象丛生的问题,”挂羊头卖狗肉”有名无实的事例也有,对于一些没有核心数据却吹嘘数据风控的大忽悠平台我们当然要擦亮火眼金睛。做大数据风控本要求的是硬技术,谁能真正掌握谁才能扎根发展,行业内已经出现了一些有益的探索,显示了用大数据做风控的优势。
大数据风控已显山露水
目前市场的大数据风控系统现状是:大公司通过大数据挖掘,自建信用评级系统;小公司通过信息分享,借助第三方获得信用评级咨询服务。
已有的风控大致分为两种模式,一种是类似于阿里的风控模式,他们通过自身系统大量的电商交易以及支付信息数据建立了封闭系统的信用评级和风控模型。另外一种则是众多中小互联网金融公司通过贡献数据给一个中间征信机构,再分享征信信息。
那么,哪些数据才是风控所需的呢?
1、电商大数据
电商平台能够累积大量的交易信息,可作为信用评级参考的原材料。阿里金融是利用电商大数据进行风控的领头羊,在很多行业人士还在云里雾里的时候,阿里已经建立了相对完善的大数据挖掘系统。通过阿里巴巴、淘宝、天猫、支付宝等积累的大量交易支付数据作为最基本的数据原料,再加上卖家提供的销售数据、银行流水、水电缴纳等情况作为辅助数据原料。所有信息汇总后,将数值输入网络行为评分模型,进行信用评级。
2、信贷记录大数据
小贷类网站积累的信贷大数据包括信贷额度、违约记录等等。但单一企业缺陷在于数据的数量级别低和地域性太强。还有部分小贷网站平台通过线下采集数据转移到线上的方式来完善信用数据。这些特点决定了如果单兵作战他们必定付出巨大成本。因此,贡献数据、共享数据的模式正逐步被认可,抱团取暖胜过单打独斗。
3、社交网站大数据
社交大数据是风控大数据的一个重要组成部分。通过社交人际网络关系数据和生活圈中其他如水电煤缴费信息、信用卡还款信息、支付和交易信息等,可以多方面地反映出用户的习惯偏好、价值取向、人际交往、信誉度和活跃度等信息。
利用社交网站大数据进行网络借贷风控的典型是美国的Lending Club。Lending club于2007年在facebook上开张,通过在上面镶嵌的一款应用搭建借贷双方平台,利用社交网络关系数据和朋友之间的相互信任聚合人气。借款人被分为若干信用等级,但是却不必公布自己的信用历史。
4、信用卡借记类数据
信用卡类网站的大数据同样对互联网金融的风险控制非常有价值。申请信用卡的年份、是否通过、授信额度、卡片种类;信用卡还款数额、对优惠信息的关注等都可以作为信用评级的参考数据。
5、消费数据
第三方支付类平台做风控的机遇在于,能基于用户的消费数据做信用分析。支付的方向、每月支付的额度、购买产品品牌都可以作为信用评级的重要参考数据。
6、生活服务类数据
生活服务类网站的大数据如水、电、煤气、有线电视、电话、网络费、物业费交纳平台则客观真实地反映了个人的基本信息,是信用评级中一类重要的数据类型。
大数据的海量也就意味着,对数据的理解和对有效数据的挑选非常重要,并非所有数据都是风控有用信息。要选取哪些数据原料进行挖掘,什么数据才是金融风控真正所需的,对数据的类型和实效性都要有所考量。
17年前,很多人认为互联网是泡沫,现在证明互联网没被高估;7年前,很多人认为电子商务是泡沫,但今天中国已经有几亿人的电商市场。如今,大数据风控方兴未艾,也伴随着一些泡沫,但只要它朝着健康的方向发展,未来已来。大数据的相关理论与分析方法,很好地弥补了数据获得的时间连续性、数据的地理位置分布、数据样本的覆盖程度等传统分析方法中的不足,其精准度更高、覆盖面更广和响应速度更快的特点,运用到风险防控中大有裨益。大数据风控本身并非是忽悠,是真的具有发展的潜力,只是其研究还更待成熟。
最后借助苏萌教授在进行大数据辩论时的一句总结:所有新鲜事物都需要一定的泡沫,才能吸引到更多的投资和关注,最终才能让真正好的东西沉淀下来。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在实际业务数据分析中,我们遇到的大多数数据并非理想的正态分布 —— 电商平台的用户消费金额(少数用户单次消费上万元,多数集 ...
2025-10-20在数字化交互中,用户的每一次操作 —— 从电商平台的 “浏览商品→加入购物车→查看评价→放弃下单”,到内容 APP 的 “点击短 ...
2025-10-20在数据分析的全流程中,“数据采集” 是最基础也最关键的环节 —— 如同烹饪前需备好新鲜食材,若采集的数据不完整、不准确或不 ...
2025-10-20在数据成为新时代“石油”的今天,几乎每个职场人都在焦虑: “为什么别人能用数据驱动决策、升职加薪,而我面对Excel表格却无从 ...
2025-10-18数据清洗是 “数据价值挖掘的前置关卡”—— 其核心目标是 “去除噪声、修正错误、规范格式”,但前提是不破坏数据的真实业务含 ...
2025-10-17在数据汇总分析中,透视表凭借灵活的字段重组能力成为核心工具,但原始透视表仅能呈现数值结果,缺乏对数据背景、异常原因或业务 ...
2025-10-17在企业管理中,“凭经验定策略” 的传统模式正逐渐失效 —— 金融机构靠 “研究员主观判断” 选股可能错失收益,电商靠 “运营拍 ...
2025-10-17在数据库日常操作中,INSERT INTO SELECT是实现 “批量数据迁移” 的核心 SQL 语句 —— 它能直接将一个表(或查询结果集)的数 ...
2025-10-16在机器学习建模中,“参数” 是决定模型效果的关键变量 —— 无论是线性回归的系数、随机森林的树深度,还是神经网络的权重,这 ...
2025-10-16在数字化浪潮中,“数据” 已从 “辅助决策的工具” 升级为 “驱动业务的核心资产”—— 电商平台靠用户行为数据优化推荐算法, ...
2025-10-16在大模型从实验室走向生产环境的过程中,“稳定性” 是决定其能否实用的关键 —— 一个在单轮测试中表现优异的模型,若在高并发 ...
2025-10-15在机器学习入门领域,“鸢尾花数据集(Iris Dataset)” 是理解 “特征值” 与 “目标值” 的最佳案例 —— 它结构清晰、维度适 ...
2025-10-15在数据驱动的业务场景中,零散的指标(如 “GMV”“复购率”)就像 “散落的零件”,无法支撑系统性决策;而科学的指标体系,则 ...
2025-10-15在神经网络模型设计中,“隐藏层层数” 是决定模型能力与效率的核心参数之一 —— 层数过少,模型可能 “欠拟合”(无法捕捉数据 ...
2025-10-14在数字化浪潮中,数据分析师已成为企业 “从数据中挖掘价值” 的核心角色 —— 他们既要能从海量数据中提取有效信息,又要能将分 ...
2025-10-14在企业数据驱动的实践中,“指标混乱” 是最常见的痛点:运营部门说 “复购率 15%”,产品部门说 “复购率 8%”,实则是两者对 ...
2025-10-14在手游行业,“次日留存率” 是衡量一款游戏生死的 “第一道关卡”—— 它不仅反映了玩家对游戏的初始接受度,更直接决定了后续 ...
2025-10-13分库分表,为何而生? 在信息技术发展的早期阶段,数据量相对较小,业务逻辑也较为简单,单库单表的数据库架构就能够满足大多数 ...
2025-10-13在企业数字化转型过程中,“数据孤岛” 是普遍面临的痛点:用户数据散落在 APP 日志、注册系统、客服记录中,订单数据分散在交易 ...
2025-10-13在数字化时代,用户的每一次行为 —— 从电商平台的 “浏览→加购→购买”,到视频 APP 的 “打开→搜索→观看→收藏”,再到银 ...
2025-10-11