浅谈大数据在金融业的应用
毫无争议的,我们已经进入到大数据时代。而金融业无疑又是大数据的最重要的应用领域之一。今天,我们就来简单谈谈大数据在金融业的应用。
什么是大数据
关于这个,已经了比较标准的答案,就不在赘述了。所谓大数据,是指多个来源和多种格式的大量结构化和非结构化数据。有两个关键点:
一是大。即数据量要非常多,数量少了不叫大数据。在实践中,一般至少要有10TB(1TB等于1024GB,想想你32G的苹果手机,可以装多少数据?)的数据量才能称之为大数据,而在类似苏宁金融等互金巨头,基本都沉淀了PB级(1PB约等于105万GB,相当于3.3万个32G的U盘,截止目前,人类生产的所有印刷材料的数据量也不过200PB)的数据量。
大数据科学家JohnRauser就提到一个简单的定义:大数据就是任何超过了一台计算机处理能力的庞大数据量。啪菠萝·毕加索的定义是,大数据就是多,就是多,原来的设备存不下、算不动。这里强调的便是大。
二是数据来自多种数据源,数据种类和格式丰富,不仅包括结构化数据,还包括半结构化和非结构化数据。意味着,即便数据量很大,但如果局限于单个领域,也不能称之为大数据。因为大数据的一个重要作用就是利用不同来源、不用领域的数据进行非线性地分析,用于未来的预测。
比如,《大数据时代》在作者Schönberger的对大数据的定义就是,“大数据,不是随机样本,而是所有数据;不是精确性,而是混杂性;不是因果关系,而是相关关系”。这里强调的便是数据的多样性。
有了大数据,自然就要有大数据技术,即从各种各样类型的巨量数据中,快速获取有价值信息的技术,强调快,这是大数据技术与传统数据挖掘技术的重要区别。
从巨量数据中提取的有价值信息,即是大数据在各个领域的具体运用,比如基于大数据进行客群的细分,进而提供定制化服务;基于大数据模拟现实环境,进而进行精准评估和预测;基于大数据进行产品和模式创新,降低业务成本、提升经营效率等等。
不过,关于大数据的应用,有一个广为流传的段子,即:
“Big Data is like teenage sex: Everyone talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it, so everyone claims they are doing it too .”
正如这个段子所讲,很多领域的大数据应用,还只是停留在想象的层面。
金融大数据数据领域应用逻辑
说道大数据在金融领域的应用,一般认为有精准营销和大数据风控两个方面。
精准营销就不说了,基于行为数据去预测用户的偏好和兴趣,继而推荐合适的金融产品,相比传统的短信群发模式,不知要先进了多少倍,这个大家都容易理解。
而对于大数据风控,其逻辑便在于“未来是过去的重复”,即用已经发生的行为模式和逻辑来预测未来。
统计学规律告诉我们,在实验条件不变的条件下,重复实验多次,随机事件的频率等于其概率。意味着,随着随机事件的大量发生,我们是可以发现其内在规律的。而大数据里面包含的海量数据,就为我们发觉隐藏在随机事件后面的规律提供了条件。
大数据风控的两个应用,信用风险和欺诈风险,背后都是这个逻辑,通过分析历史事件,找到其内在规律,建成模型,然后用新的数据去验证和进化这个模型。
以美国主流的个人信用评分工具FICO信用分为例,FICO分的基本思路便是:
把借款人过去的信用历史资料与数据库中的全体借款人的信用习惯相比较,检查借款人的发展趋势和经常违约、随意透支、甚至申请破产的各种陷入财务困境的借款人的发展趋势是否相似。
FICO评分是传统金融机构对大数据的运用,再来看看典型互金机构ZestFinance对大数据的运用,ZestFinance的客群主要就是FICO评分难以覆盖的人群,要么是在FICO得分过低金融机构拒绝放贷的人,要么是FICO得分适中,金融机构同意放贷但利率较高的人。
在ZestFinance的评分模型中,会大量应用到非征信数据(50%-70%左右),在其官方宣传中,提到会用到 3500 个数据项,从中提取 70,000 个变量,利用 10 个预测分析模型,如欺诈模型、身份验证模型、预付能力模型、还款能力模型、还款意愿模型以及稳定性模型,进行集成学习或者多角度学习,并得到最终的消费者信用评分。
而欺诈风险的防控,本质上也是通过对历史欺诈行为的分析,不断梳理完善风险特征库,比如异地登录、非常用设备登录等行为,都是一种风险信号,建立一系列的风险规则判定集,预测用户行为背后的欺诈概率。
几个待解决的问题
第一个就是数据共享的问题。大数据的应用,前提是要有大数据,而在很多金融机构而言,并没有所谓的大数据,何谈应用呢。我们知道,在次级类用户的信用评价中,非征信数据发挥着重要的作用,但是要获得有价值的数据并不容易。
一般来讲,盈利性质的商业公司和企业都不会轻易泄露自己的数据、建模方法和分析过程,这个无可厚非,但客观上便产生了这样一种效果,几大互联网巨头变成了数据黑洞,用户的数据进得去、出不来,可以为企业自身而用,但不能为整个行业或社会而用。此外,散落在税务、公积金、海关、工商等领域的数据梳理和整合,也是漫长的过程。
第二个便是数据保护的问题。正如我在之前的一篇文章《在上市平台信而富财报中,我找到了四个行业秘密》中提到,
“没错,数据是核心驱动力。但问题是,在数据保护和用户隐私等相关法律框架最终明确落地之前,对互金平台而言,数据既是宝贵的资产,也可能演变成为声誉风险、合规风险、用户诉讼风险等各类问题的潜在来源,是福是祸,尚是未知之数。”
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
Python作为一门功能强大的编程语言,已经成为数据分析和可视化领域的重要工具。无论你是数据分析的新手,还是经验丰富的专业人士 ...
2025-01-10完全靠数据决策,真的靠谱吗? 最近几年,“数据驱动”成了商界最火的关键词之一,但靠数据就能走天下?其实不然!那些真正成功 ...
2025-01-09SparkSQL 结构化数据处理流程及原理是什么?Spark SQL 可以使用现有的Hive元存储、SerDes 和 UDF。它可以使用 JDBC/ODB ...
2025-01-09在如今这个信息爆炸的时代,数据已然成为企业的生命线。无论是科技公司还是传统行业,数据分析正在深刻地影响着商业决策以及未来 ...
2025-01-08“数据为王”相信大家都听说过。当前,数据信息不再仅仅是传递的媒介,它成为了驱动经济发展的新燃料。对于企业而言,数据指标体 ...
2025-01-07在职场中,当你遇到问题的时候,如果感到无从下手,或者抓不到重点,可能是因为你掌握的思维模型不够多。 一个好用的思维模型, ...
2025-01-06在现代企业中,数据分析师扮演着至关重要的角色。每天都有大量数据涌入,从社交媒体到交易平台,数据以空前的速度和规模生成。面 ...
2025-01-06在职场中,许多言辞并非表面意思那么简单,有时需要听懂背后的“潜台词”。尤其在数据分析的领域里,掌握常用术语就像掌握一门新 ...
2025-01-04在当今信息化社会,数据分析已成为各行各业的核心驱动力。它不仅仅是对数字进行整理与计算,而是在数据的海洋中探寻规律,从而指 ...
2025-01-03又到一年年终时,各位打工人也迎来了展示成果的关键时刻 —— 年终述职。一份出色的年终述职报告,不仅能全面呈现你的工作价值, ...
2025-01-03在竞争激烈的商业世界中,竞品分析对于企业的发展至关重要。今天,我们就来详细聊聊数据分析师写竞品分析的那些事儿。 一、明确 ...
2025-01-03在数据分析的江湖里,有两个阵营总是争论不休。一派信奉“大即是美”,认为数据越多越好;另一派坚守“小而精”,力挺质量胜于规 ...
2025-01-02数据分析是一个复杂且多维度的过程,从数据收集到分析结果应用,每一步都是对信息的提炼与升华。可视化分析结果,以图表的形式展 ...
2025-01-02在当今的数字化时代,数据分析师扮演着一个至关重要的角色。他们如同现代企业的“解密专家”,通过解析数据为企业提供决策支持。 ...
2025-01-02数据分析报告至关重要 一份高质量的数据分析报告不仅能够揭示数据背后的真相,还能为企业决策者提供有价值的洞察和建议。 年薪 ...
2024-12-31数据分析,听起来好像是技术大咖的专属技能,但其实是一项人人都能学会的职场硬核能力!今天,我们来聊聊数据分析的核心流程,拆 ...
2024-12-31提到数据分析,你脑海里可能会浮现出一群“数字控”抱着电脑,在海量数据里疯狂敲代码的画面。但事实是,数据分析并没有你想象的 ...
2024-12-31关于数据分析师是否会成为失业高危职业,近年来的讨论层出不穷。在这个快速变化的时代,技术进步让人既兴奋又不安。今天,我们从 ...
2024-12-30数据分析师在现代企业中扮演着关键角色,他们的工作内容不仅丰富多样,还对企业的决策和发展起着重要的作用。正如一个经验丰富的 ...
2024-12-29数据分析师的能力要求 在当今的数据主导时代,数据分析师的角色变得尤为重要。他们不仅需要具备深厚的技术背景,还需要拥有业务 ...
2024-12-29