大数据时代,你是否拥有“文科思维”
最近,我所在的团队为一家车贷公司搭建了一套信审数据模型,该模型可以根据贷款申请者的数据自动预测其在未来能否按时还款,决定是否通过用户的贷款申请。
相比人工信审,模型预测是全自动的机器过程,在保证判断准确率的前提下,它能为公司节省大量的人力成本。
项目在客户的工作地点开展,我们的工位处于一个信审专区,周围是大量的信审工作人员,他们每天的工作是审核贷款申请者的资料,联系申请者核实信息,工作间隙,我们总能听到有趣的对话:
信审员:“你有几个儿子?”
贷款申请者:“三个。”
信审员:“刚刚打电话给你老婆,她说你们只有两个儿子,这是怎么回事?”
贷款申请者身旁传来窃窃私语……
信审员:“你旁边的人是谁啊?你有几个儿子还需要别人来提醒你?”
……
对话进行到这里时,信审人员会在系统内记录下该申请者和配偶提供的信息不一致,存在可能的骗贷行为,这将成为该申请者能否被成功授信的“减分项”。
虽然目的均为实现快速、准确的信贷审核,但数据建模的工作逻辑与人工审核存在明显的差异。数据分析专家面对的是一串串数字,而业务人员面对的是鲜活的申请者。
数据分析出发点所有客户的申请资料,包括此人性别、年龄、资产情况等基本信息,以及一些来自第三方平台的风险数据(如该申请者有无犯罪记录),简单地说,我们工作的出发点是一张Excel表格。
反观另一面,信贷审核人员在处理每笔信贷业务时,他们除了面对每个申请者的具体信息,还会通过电话核实申请者的身份,最终作出人工决策。
数据表格是分析师们每天的工作伙伴
初入数据行业时,我以为只要玩转手中各种复杂的表格,写一手漂亮的建模代码,从透视表中找到有趣的发现,就足以成就一个让客户满意的项目。
然而,老板在入职第一天就语重心长地告诉我:“大数据是有局限性的,它无法替代你对真实业务的体会,这也是我们为何要驻场工作。”
在客户的呼叫中心驻场1个多月后,我似乎明白了老板挂在嘴边的这种“体会”。
大数据是我们认识世界的一种方式,它将关于你的一切量化为很多数据标签,然后将它们存储在表格里,比如你的性别是男性,今天打车回家花了30元,周末玩了两小时王者荣耀。
大数据的优势很明显,它具有一个对所有人通用的结构,每个用户这些维度的数据都会被记录在表格中,淘宝知道每个用户的双11消费能力,今日头条对你感兴趣的新闻了如指掌,信贷公司记载了你过往的信用记录。
然而,大数据的不足之处在于,它仅仅是对世界的一个切片,对于切片之外的事物一无所知。
面试官面试新员工时,首先会查看申请者的简历,简历上的教育背景、工作经验、语言能力是以固定结构记录的数据,然而申请者在面试中给予面试官的感受,比如她是气场强大的女神还是平易近人的萌妹子,大数据则无法给予答案。
在最近的项目中,我们通过数据发现那些教育程度较高的贷款申请者更容易在未来逾期还款,这听上去有些违背常理,然而精通业务的经理告诉我们这是合理的现象,那些所谓的高学历是申请者在填写表格时编造的。后者并不是大数据能够捕捉的行为,然而对理解申请者的行为至关重要。
金融大鳄乔治·索罗斯的团队在做出重要投资决策时,他们不仅仅关注能被写进表格的金融数据,同时亲自前往欧洲各地,在当地的酒吧与人们聊天,了解未来可能的宏观政策变化,索罗斯甚至依赖自己的背痛预判可能的风险。这些无法被标准地量化,甚至听上去有些荒谬的决策标准却成就了他们在1992年9月的“黑色星期三”狙击英镑,几周内赚取11亿美元的空前收益。
咨询顾问Christian Madsbjerg的《意会:算法时代人文科学的力量》一书是本文的主要参考书目,该书目前暂无中文版
通常,我们可以把人类认识世界的途径分为两种:
一种是如今家喻户晓的大数据;
另一种则是一直长久存在,却往往在这个时代被我们忽视的“厚数据”。如果将大数据比作对客观世界的标准化切片,厚数据则是我们在每个独特场景的深度感知。
简历上的文字是大数据,而面试官对申请者的感觉是厚数据;表格中教育程度一列等于“大学”是大数据,而填写者在背后的伪装是厚数据;股票、汇率的历史走势是大数据,而酒吧人们的闲聊和索罗斯的背痛是厚数据。
大数据的不足之处在于它缺乏厚数据携带的场景。存在主义哲学家海德格尔(Martin Heidegger)提出了“存在”(being)这一概念,它指的是世间万物存在的场景(context),我们对于任何事物的理解都不能将其孤立为一个元素,而是应考虑这个元素所处的具体场景,以及它与其它元素的相互关系。
海德格尔等人在他们的现象学(phenomenology)中对这个概念进行了更详细的阐释,现象学的目的在于描述事物真实存在的方式,而不是我们觉得他们应该存在的方式,而事物“真实存在的方式”必然离不开它所处的场景,而不是像大数据那样对现实进行标准化的切片。
需要注意的是,现象学中的“真实存在”,并不是指这件事必须在客观上是正确的,比如“世界上只有男和女两种性别”,而是当我们在某一场景下听到一个现象学的描述,被问及“你觉得是这样吗?”时,我们会点头表示同意。
同样的一杯红酒,在点亮烛光的法国餐厅与嘈杂的办公桌前饮用,注定是不一样的感受,虽然它们的化学质地是相同的。
同样是一个小时,在思修课堂和情人坡度过,必然是不同的长度,虽然它们的自然属性没有差异。
两名被数据标记有存在犯罪记录的贷款申请者,虽然数据将它们一视同仁,然而一位只是过失的交通肇事,另一位则有抢劫银行的前科,他们在未来的还款能力或许大相径庭。
身为数据工作者,当然希望数据和算法能尽可能多地代替人类的工作,但正如我们在项目中看到的,现实并非如此,仅仅面对数据和算法并无法洞察每个申请者所处的独特场景。机器学习与人类决策是相互补充,而非相互替代的关系。
这也是为什么,数据分析师们一定要驻场工作,因为只有像信审专员那样身处业务前线,才能对那些贷款的申请者形成更加深刻的体会。
之所以与大家分享场景、厚数据、现象学这些概念,是因为在这个大数据概念传遍街头巷尾的时代,我们极易选择用简单的数据标签衡量一切:
选择去哪家餐馆,只看大众点评的总体评分,并不在意网友的大段评论。
决定在哪里读大学,先看学校的综合及专业排名,不在乎学长学姐们分享的体会。
想了解用户对产品的满意度,只要求1000人在问卷上打分,不会深度访谈用户使用产品时的具体想法和感受。
后者事实上代表了一种以现象学为基础的“文科思维”,即我们只关注每个独特场景下的主观体验,不会尝试将许多场景标准化,然后贴上统一的数据标签。
研究文科思维的专家Christian Madsbjerg认为文科思维是培养我们对外界的敏感度的重要途径,所谓的敏感度,指的是我们察觉事物间微妙差别的能力。正如两杯红酒,在不同地点的1小时,两名数据画像相同的申请者,辨别它们之间的差异需要的正是文科思维。
Madsbjerg指出学习诸如艺术、历史、哲学、社会学、人类学这些人文学科是培养文科思维的重要手段。因为这些学科中存在大量基于具体场景的思考和感知,比如艺术课教你欣赏达芬奇的作品,社会学家擅长消费者深度访谈,人类学家喜欢实地观察原始部落等,它们不会教你如何将世界编码成一张数据表格,却能培养你洞察世间微妙区别的能力。
前段时间看了《看不见的客人》,这是一部悬疑剧,剧情围绕一名成功的银行家与一名女律师之间的对话展开,女律师试图帮助银行家摆脱杀人的罪名,但殊不知她就是杀人案中被害者的母亲。
《看不见的客人》中的女律师
与我一起看电影的小闷同学在女律师出场时脱口而出:“我感觉这个律师就是他妈妈。”她的感觉惊人的准确。
电影结束我问小闷,她是如何做出这样的判断的,小闷说律师的面部表情看上去很奇怪,不像一名提供专业服务的人,这显然不是机器学习算法所能实现的。
今天的内容或许能给小闷对外界的敏感提供解释:她是一名文科生,而且很喜欢看电影。
最后,与你分享一个关于文科生的好消息。薪酬调研公司PayScale曾做过一项调查,在薪酬排名前20的毕业生专业中,计算机工程、化学工程这样的理工类专业长期占榜,而社会学、历史学这样的人文学科则十分罕见。
这听上去符合我们的直觉,但如果我们观察那些收入排在前10%的人,具有政治科学、哲学、戏剧、历史背景的专业人士则会脱颖而出,宝洁前CEO雷富礼曾对实现商业成功单单提出一条建议:取得一个文科(或称“自由技艺”)学位(pursue a degree in liberal arts)。
这样的建议无疑是有道理的,毕竟,真实的世界不是电子表格。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数字化浪潮中,数据驱动决策已成为企业发展的核心竞争力,数据分析人才的需求持续飙升。世界经济论坛发布的《未来就业报告》, ...
2025-03-28你有没有遇到过这样的情况?流量进来了,转化率却不高,辛辛苦苦拉来的用户,最后大部分都悄无声息地离开了,这时候漏斗分析就非 ...
2025-03-27TensorFlow Datasets(TFDS)是一个用于下载、管理和预处理机器学习数据集的库。它提供了易于使用的API,允许用户从现有集合中 ...
2025-03-26"不谋全局者,不足谋一域。"在数据驱动的商业时代,战略级数据分析能力已成为职场核心竞争力。《CDA二级教材:商业策略数据分析 ...
2025-03-26当你在某宝刷到【猜你喜欢】时,当抖音精准推来你的梦中情猫时,当美团外卖弹窗刚好是你想吃的火锅店…… 恭喜你,你正在被用户 ...
2025-03-26当面试官问起随机森林时,他到底在考察什么? ""请解释随机森林的原理""——这是数据分析岗位面试中的经典问题。但你可能不知道 ...
2025-03-25在数字化浪潮席卷的当下,数据俨然成为企业的命脉,贯穿于业务运作的各个环节。从线上到线下,从平台的交易数据,到门店的运营 ...
2025-03-25在互联网和移动应用领域,DAU(日活跃用户数)是一个耳熟能详的指标。无论是产品经理、运营,还是数据分析师,DAU都是衡量产品 ...
2025-03-24ABtest做的好,产品优化效果差不了!可见ABtest在评估优化策略的效果方面地位还是很高的,那么如何在业务中应用ABtest? 结合企业 ...
2025-03-21在企业数据分析中,指标体系是至关重要的工具。不仅帮助企业统一数据标准、提升数据质量,还能为业务决策提供有力支持。本文将围 ...
2025-03-20解锁数据分析师高薪密码,CDA 脱产就业班助你逆袭! 在数字化浪潮中,数据驱动决策已成为企业发展的核心竞争力,数据分析人才的 ...
2025-03-19在 MySQL 数据库中,查询一张表但是不包含某个字段可以通过以下两种方法实现:使用 SELECT 子句以明确指定想要的字段,或者使 ...
2025-03-17在当今数字化时代,数据成为企业发展的关键驱动力,而用户画像作为数据分析的重要成果,改变了企业理解用户、开展业务的方式。无 ...
2025-03-172025年是智能体(AI Agent)的元年,大模型和智能体的发展比较迅猛。感觉年初的deepseek刚火没多久,这几天Manus又成为媒体头条 ...
2025-03-14以下的文章内容来源于柯家媛老师的专栏,如果您想阅读专栏《小白必备的数据思维课》,点击下方链接 https://edu.cda.cn/goods/sh ...
2025-03-13以下的文章内容来源于刘静老师的专栏,如果您想阅读专栏《10大业务分析模型突破业务瓶颈》,点击下方链接 https://edu.cda.cn/go ...
2025-03-12以下的文章内容来源于柯家媛老师的专栏,如果您想阅读专栏《小白必备的数据思维课》,点击下方链接 https://edu.cda.cn/goods/sh ...
2025-03-11随着数字化转型的加速,企业积累了海量数据,如何从这些数据中挖掘有价值的信息,成为企业提升竞争力的关键。CDA认证考试体系应 ...
2025-03-10推荐学习书籍 《CDA一级教材》在线电子版正式上线CDA网校,为你提供系统、实用、前沿的学习资源,助你轻松迈入数据分析的大门! ...
2025-03-07在数据驱动决策的时代,掌握多样的数据分析方法,就如同拥有了开启宝藏的多把钥匙,能帮助我们从海量数据中挖掘出关键信息,本 ...
2025-03-06