忘掉你的大数据,数据思维才最重要
“坦白讲如果数据分析师没有拥有数据思维,那即使拥有了很多数据,而且不管这些数据有多大,都不能说你在做大数据,所以大数据的核心其实是要拥有数据思维。”
1、数据思维 利用数据解决问题
什么是数据思维?数据思维的最核心是利用数据解决问题,利用数据解决问题的最核心是要深度了解需求,了解真正要解决什么样的问题,解决问题背后的真实目的是什么。数据分析师在解决问题的过程中我们使用数据的方法,通常可以叫量化的方法。
所谓量化的方法,就是解决问题的过程要可衡量、可评估,有非常明确的定义,这点在老师书里有一篇就介绍了他的几个定义,即“PIMA”,这四个字母分别代表了解决问题时要考虑的几个纬度。
需要有明确的目的(P);
在达到目的的过程中需要有清晰的定义(I);
在解决问题的过程中所使用的手段是可量化的(M);
对问题、解决问题的全过程可评估(A);
所以不管是财务、人事、还是生产或销售的每一个环节都是可量化的,可以通过数据解决问题的。
通过量化的数据解决问题,就是我们所谓的数据思维。举明略在金融行业的实际案例来看:我们先思考一下,金融行业里银行、保险或证券公司经营的目的是什么?这是核心。老师在书里也介绍了,考虑大数据也好,考虑数据思维也好,首先是要分析出所做事情的真正目的是什么?然后再进行量化分析。
实际上,金融行业企业最核心的是风险控制问题。银行获取存款的过程做一个最基本的存款操作就行了,是没有任何风险的。但当银行想盈利的时候,存款业务因为要支付储户利息成为非赚钱手段,想赚钱要通过贷款实现。银行把收过来的存款贷出去,两者之间的利差是银行的利润。
所以对于银行来讲,真正的核心诉求是如何在贷款过程中降低风险,尽量减少贷款个体或企业不还款的风险。这个风险越低,银行的利润空间就越大。因为整个贷款利差并不高,可能只有几个点,最多也不会超过十个点,即便是现在的小贷,也不会超过十个点。但一般一个贷款人还不了款的话,银行利润就会被大打折扣。现在整个市场上的风险率或坏账率有时会高达百分之三、百分之五,即便比较低的时候可能在很多银行有百分之一点几、百分之二点几。所以如何有效的控制这个风险对银行很重要。
所以对于银行来讲,他需要了解贷款人的还款能力。而且还款能力从他贷款到还款过程中也在时时发生变化,有消费者在贷款瞬间是有还款能力的,但在还款之前的整个周期里他经历的状况其实在不断发生变化。企业更是这样子,每个企业在经营过程中的状态是瞬息万变的。所以对于银行来讲了解消费者或企业的整个经营状况、资产状况、风险状况是非常关键的,中间的每个环节都可能造成贷款人最后无法还款,银行需要评估这里面的每一个因素与最后能否发签证的关系。
在传统金融行业里,很多银行只会考虑发贷款或者发信用卡之前的风控分析。很多银行到人民银行拿到一些个人消费者征信报告,这些数据包含了消费者以前其他的贷款、每个月工资情况等等这样一些最基本的信息。银行根据信息打分,然后这个分数之上的消费者可以获批贷款,在分数之下的就不会获批。这整个过程是成本较高的,因为任何一个报告都是要花钱去买。第二点是很多情况下需要面访,现场进行风险考察,然而这个考察过程中数据的真实性和有效性也是值得商榷的。
比如我们的一个客户——邮政储蓄银行。向他们贷款的很多客户是农民,他们在种植或者养殖生产中需要资金支持,比如用来投资买种子或者购买种植养殖的基本设施。但是当面谈的时候他或许假装家里有一头牛,我将来可以卖掉这个牛还款,但这个牛有可能是从他的邻居家拉过来的。所以真正证明贷款申请人信用的数据真实性和有效性是解决这个问题过程中非常核心的问题。数据是否是真实有效的、数据是否跟最后结果有关系,这就是我们在数据思维决策过程中需要考虑的两个非常核心的问题。
“ 其实我是有一点近视眼的,我看很远处的一个广告牌,上面的文字有时我看得不是很清楚,但我的大脑是能够猜出来文字大概是讲什么的。本质上是因为在我的大脑是拥有识别低分辨率的数据,同时再把它还原推测到高分辨率的那个能力。这种能力其实也是数据分析师里面非常核心的能力。
2、数据治理 还原推测到“高分辨率”
我接下来就给大家讲讲处理数据里面最核心的两个工作。第一个工作我们称之为数据清洗或是叫数据治理。
很多公司拥有大量的数据,但如果这些数据没有办法整合到一起,没办法清洗、在线化,没办法让使用者方便取用,那即便数据量再大也不能说这个公司有大数据。所以清洗和整合数据是非常重要的。通常在技术领域有一个概念叫“ETL”,ETL其实只把数据抽取到一起,进行数据格式统一化,最后再加载到一个可应用的平台上,这是整个数据治理行业里面最核心的几个环节。但在大数据概念出来之后,跟传统ETL有一个挺大的区别在于数据格式跟以前相比更加复杂。通常我们所谓的大数据、我们处理的数据除了包括以前的结构化数据,还包括新的非结构化数据。
非结构化数据是指数据里每一条记录之间的格式并不统一,甚至很多数据都是脏数据。大家"数据分析师"可以想象银行的很多数据,比如消费者注册信息:姓名、年龄、手机号、身份证号,包括月收入可能都要求填,但很多情况下大家填信息的时候格式都不一定统一,比如说手机号可能有一些人填没有加“86”,再比如说身份证号有人填的是18位的,有人填的是15位的,这些信息是否是统一格式对于未来的数据应用非常关键。
今天很多互联网公司都是拥有大量数据的,中国最大的三巨头BAT都拥有海量消费者网名数据。百度云每天一个人搜索数据,阿里拥有每个人每天购物的浏览数据和下单采购数据,腾讯就不用说了,他有我们每个人的聊天记录、通信记录。他们拥有的数据都是非常可怕的。这些数据有一个很主要的工作在清洗过程中,就是需要把数据的唯一用户标识进行统一,因为很多的数据是散落在不同的子平台上的,在不同的平台上的可能会有不同的唯一标识,在有的情况下一个网名是处于登陆状态,而有些情况下是处于没有登录的情况。如何把不同的数据都打到同一个标签上是很多公司里数据分析师正在做的事情。
像我最近在跟几个阿里包括老师,还有腾讯的人聊,他们自己内部都有一个类似于叫自然人计划的项目,这是公司的核心项目。这个项目工作就是把整个集团下属的所有公司的数据收集到一起,把这些数据连到一块儿,把消费者行为最后标到一个真正的可以看出来的一个自然人身上。比如说像我在阿里体系里不仅是有购物行为,还有在高德地图上的浏览的行为,而且我在高德地图上是没有登录的,那在阿里体系里面他就需要通过一些算法的猜测,而这个人使用地图的具体行为可能正好也就是这个人使用的支付宝账号的信息,他们通过一个算法是可以关联起来的。实际上这个关联并不难,因为我这两个行为都是落在同一个手机上的,他可以通过手机的ID就可以把我的行为连起来了,最后得出结论就是吴明辉的。
所以前面我也反复提到过好多次,数据实际上是每一个人、每一个个体、每个机器、每天日常的各种人的行为的一些记录。因为程序的能力,可以把数据及行为记录下来,这就产生数据。但是任何一个商业公司也好,甚至是国家也好,都没有能力去记录一个个体、一个人一天二十四小时所有的行为,这是不可能的。每个人只能记录一个片段,所以数据清洗的过程还有一个很重要的工作就是想办法把一个人的所有行为进行补全,甚至对你的未来行为进行预测。
这就好比平时用数码相机照相,平时看到一张照片是一百万像素、五百万像素还是一千万像素的,事实上大家可以理解整个世界的像素是无穷的。但是我们最后把拍照存下来的时候肯定是有限制的,如几百万或者一千万,最高可能有几千万像素的相机。但实际上拍下来,真正数码化存下来的时候,他已经是一个采样的过程,就是把真正分辨率极高的这个真实世界里面的一部分信息抽样存下来,然后分辨率越高,就是抽样的比例越高。分辨率越低,抽样的比例越低。
而我们真正记录下来数据,记录得越全面,对还原真实世界就还原得越好。但是很多情况下,如果真正的技术、好的算法或者数据清晰的整合能力很强的话,可以把一个低分辨率的信息,还原成原来很高分别率,很真实的情况。就像我们的人眼其实就很厉害,因为其实我是有一点近视眼的,但是我看很远处的一个广告牌,上面的文字有的时候我看得不是很清楚,但是我的大脑是能够猜出来到底这个文字是讲什么的,本质上是因为在我的大脑里面是拥有识别低分辨率的数据,同时再把它还原推测到高分辨率的那个能力。这种能力其实也是大数据公司里面非常核心的能力。
“并不是所有的数据在系统里面都存在,比如说我跟我同事之间的关系,我跟我爱人之间的家庭关系,可能在公安系统里面并没有完整的存储数据。但是很多数据可以非常快速的被发现出来。
3、数据关联 同一趟火车到互为同事的推断
前面我给大家介绍的是数据的清洗整合。实际上大数据技术除了信息整合之外,另外一个很核心的技术是数据的关联。
前面我也提到了很多大数据客户不管是政府还是企业都有很多不同的数据,因为数据本身是需要关联起来,在数据真正联系到一起之后,在数据内部我们可以发现很多数据和数据之间的关系,而这些关系真正的挖掘好了之后,它的实战价值是非常大的,可以起到1+1远远大于2的作用。
在美国有一家非常有名的大数据企业叫“Palantir”,这家公司现在虽然还没上市,但市值已达两百亿美金,是全球没有上市的企业里市值排名前五的企业。这家企业之所以厉害是因为其在利用数据关联这种能力去给美国情报机构,包括CIA、美国国土安全局提供数据挖掘服务,帮助他们进行反恐和非常重大的刑事案件追查,数据的关联在很多情况下能够帮助政府很好的发现犯罪份子。
明略数据现在也在利用类似的技术给中国的公安局等部门提供类似的服务。在整个公安破案过程中,这种关系的挖掘是非常重要的。就像前面我说的,并不是所有数据在系统里面都存在,比如说我跟我同事之间的关系,我跟我爱人之间的家庭关系,可能在公安系统里面并没有完整的存储数据。但是很多数据可以非常快速的被发现出来。举个例子,当时我们在河北做了一个试点,我也是很强烈地被震撼到了。当时把我的名字输到这套系统之后,其实是通过我们自己做开发的系统,我们可以用非常快速的方法查出哪一些人是我在明略的同事。
虽然在公安系统里并没有记录我是明略的,我的同事也是明略的,我们之间这种同事关系,但在公安系统里记录了我曾经从北京坐了一趟动车去到了河北,我的另外一个同事也坐这趟车过去,同天晚上我们又入住了同一家酒店,就这样简简单单的信息,就把我们两个人关联上了。我们其他同事用类似的方法都可以非常简单地被关联在一起。当我们利用这样方法把几组数据,比如乘坐火车的数据和住酒店的数据关联到一起之后,很多关联关系就自动的被发现出来了。这个价值对于整个安全体系来讲是非常非常重要的。今天其实很多公安都在试用类似的方法侦破重大案件。
总结
大数据的核心有两个:第一,要知道数据是如何获取的。第二,要拥有“数据思维”,拥有数据思维最核心是我们要考虑到一个事物从起因到结果的发展过程,所有的数据其实是记录这个过程中的证据。
当一个机构在给一个消费者、一个个人提供服务的过程中,这些数据很多情况下就被存储下来了。存储下来的数据可以通过大数据技术来还原最开始的真相,数据分析师会通过统计学的模型可以把缺失的信息补全,用来预测未来的信息,这就是大数据的本质。
数据分析咨询请扫描二维码
在准备数据分析师面试时,掌握高频考题及其解答是应对面试的关键。为了帮助大家轻松上岸,以下是10个高频考题及其详细解析,外加 ...
2024-12-20互联网数据分析师是一个热门且综合性的职业,他们通过数据挖掘和分析,为企业的业务决策和运营优化提供强有力的支持。尤其在如今 ...
2024-12-20在现代商业环境中,数据分析师是不可或缺的角色。他们的工作不仅仅是对数据进行深入分析,更是协助企业从复杂的数据信息中提炼出 ...
2024-12-20随着大数据时代的到来,数据驱动的决策方式开始受到越来越多企业的青睐。近年来,数据分析在人力资源管理中正在扮演着至关重要的 ...
2024-12-20在数据分析的世界里,表面上的技术操作只是“入门票”,而真正的高手则需要打破一些“看不见的墙”。这些“隐形天花板”限制了数 ...
2024-12-19在数据分析领域,尽管行业前景广阔、岗位需求旺盛,但实际的工作难度却远超很多人的想象。很多新手初入数据分析岗位时,常常被各 ...
2024-12-19入门数据分析,许多人都会感到“难”,但这“难”究竟难在哪儿?对于新手而言,往往不是技术不行,而是思维方式、业务理解和实践 ...
2024-12-19在如今的行业动荡背景下,数据分析师的职业前景虽然面临一些挑战,但也充满了许多新的机会。随着技术的不断发展和多领域需求的提 ...
2024-12-19在信息爆炸的时代,数据分析师如同探险家,在浩瀚的数据海洋中寻觅有价值的宝藏。这不仅需要技术上的过硬实力,还需要一种艺术家 ...
2024-12-19在当今信息化社会,大数据已成为各行各业不可或缺的宝贵资源。大数据专业应运而生,旨在培养具备扎实理论基础和实践能力,能够应 ...
2024-12-19阿里P8、P9失业都找不到工作?是我们孤陋寡闻还是世界真的已经“癫”成这样了? 案例一:本硕都是 985,所学的专业也是当红专业 ...
2024-12-19CDA持证人Louis CDA持证人基本情况 我大学是在一个二线城市的一所普通二本院校读的,专业是旅游管理,非计算机非统计学。毕业之 ...
2024-12-18最近,知乎上有个很火的话题:“一个人为何会陷入社会底层”? 有人说,这个世界上只有一个分水岭,就是“羊水”;还有人说,一 ...
2024-12-18在这个数据驱动的时代,数据分析师的技能需求快速增长。掌握适当的编程语言不仅能增强分析能力,还能帮助分析师从海量数据中提取 ...
2024-12-17在当今信息爆炸的时代,数据分析已经成为许多行业中不可或缺的一部分。想要在这个领域脱颖而出,除了热情和毅力外,你还需要掌握 ...
2024-12-17数据分析,是一项通过科学方法处理数据以获取洞察并支持决策的艺术。无论是在商业环境中提升业绩,还是在科研领域推动创新,数据 ...
2024-12-17在数据分析领域,图表是我们表达数据故事的重要工具。它们不仅让数据变得更加直观,也帮助我们更好地理解数据中的趋势和模式。相 ...
2024-12-16在当今社会,我们身处着一个飞速发展、变化迅猛的时代。不同行业在科技进步、市场需求和政策支持的推动下蓬勃发展,呈现出令人瞩 ...
2024-12-16在现代商业世界中,数据分析师扮演着至关重要的角色。他们通过解析海量数据,为企业战略决策提供有力支持。要有效完成这项任务, ...
2024-12-16在当今数据爆炸的时代,数据分析师是组织中不可或缺的导航者。他们通过从大量数据中提取可操作的洞察力,帮助企业在竞争激烈的市 ...
2024-12-16