大数据时代,你是否拥有“文科思维”
最近,我所在的团队为一家车贷公司搭建了一套信审数据模型,该模型可以根据贷款申请者的数据自动预测其在未来能否按时还款,决定是否通过用户的贷款申请。
相比人工信审,模型预测是全自动的机器过程,在保证判断准确率的前提下,它能为公司节省大量的人力成本。
项目在客户的工作地点开展,我们的工位处于一个信审专区,周围是大量的信审工作人员,他们每天的工作是审核贷款申请者的资料,联系申请者核实信息,工作间隙,我们总能听到有趣的对话:
信审员:“你有几个儿子?”
贷款申请者:“三个。”
信审员:“刚刚打电话给你老婆,她说你们只有两个儿子,这是怎么回事?”
贷款申请者身旁传来窃窃私语……
信审员:“你旁边的人是谁啊?你有几个儿子还需要别人来提醒你?”
……
对话进行到这里时,信审人员会在系统内记录下该申请者和配偶提供的信息不一致,存在可能的骗贷行为,这将成为该申请者能否被成功授信的“减分项”。
虽然目的均为实现快速、准确的信贷审核,但数据建模的工作逻辑与人工审核存在明显的差异。数据分析专家面对的是一串串数字,而业务人员面对的是鲜活的申请者。
数据分析出发点所有客户的申请资料,包括此人性别、年龄、资产情况等基本信息,以及一些来自第三方平台的风险数据(如该申请者有无犯罪记录),简单地说,我们工作的出发点是一张Excel表格。
反观另一面,信贷审核人员在处理每笔信贷业务时,他们除了面对每个申请者的具体信息,还会通过电话核实申请者的身份,最终作出人工决策。
数据表格是分析师们每天的工作伙伴
初入数据行业时,我以为只要玩转手中各种复杂的表格,写一手漂亮的建模代码,从透视表中找到有趣的发现,就足以成就一个让客户满意的项目。
然而,老板在入职第一天就语重心长地告诉我:“大数据是有局限性的,它无法替代你对真实业务的体会,这也是我们为何要驻场工作。”
在客户的呼叫中心驻场1个多月后,我似乎明白了老板挂在嘴边的这种“体会”。
大数据是我们认识世界的一种方式,它将关于你的一切量化为很多数据标签,然后将它们存储在表格里,比如你的性别是男性,今天打车回家花了30元,周末玩了两小时王者荣耀。
大数据的优势很明显,它具有一个对所有人通用的结构,每个用户这些维度的数据都会被记录在表格中,淘宝知道每个用户的双11消费能力,今日头条对你感兴趣的新闻了如指掌,信贷公司记载了你过往的信用记录。
然而,大数据的不足之处在于,它仅仅是对世界的一个切片,对于切片之外的事物一无所知。
面试官面试新员工时,首先会查看申请者的简历,简历上的教育背景、工作经验、语言能力是以固定结构记录的数据,然而申请者在面试中给予面试官的感受,比如她是气场强大的女神还是平易近人的萌妹子,大数据则无法给予答案。
在最近的项目中,我们通过数据发现那些教育程度较高的贷款申请者更容易在未来逾期还款,这听上去有些违背常理,然而精通业务的经理告诉我们这是合理的现象,那些所谓的高学历是申请者在填写表格时编造的。后者并不是大数据能够捕捉的行为,然而对理解申请者的行为至关重要。
金融大鳄乔治·索罗斯的团队在做出重要投资决策时,他们不仅仅关注能被写进表格的金融数据,同时亲自前往欧洲各地,在当地的酒吧与人们聊天,了解未来可能的宏观政策变化,索罗斯甚至依赖自己的背痛预判可能的风险。这些无法被标准地量化,甚至听上去有些荒谬的决策标准却成就了他们在1992年9月的“黑色星期三”狙击英镑,几周内赚取11亿美元的空前收益。
咨询顾问Christian Madsbjerg的《意会:算法时代人文科学的力量》一书是本文的主要参考书目,该书目前暂无中文版
通常,我们可以把人类认识世界的途径分为两种:
一种是如今家喻户晓的大数据;
另一种则是一直长久存在,却往往在这个时代被我们忽视的“厚数据”。如果将大数据比作对客观世界的标准化切片,厚数据则是我们在每个独特场景的深度感知。
简历上的文字是大数据,而面试官对申请者的感觉是厚数据;表格中教育程度一列等于“大学”是大数据,而填写者在背后的伪装是厚数据;股票、汇率的历史走势是大数据,而酒吧人们的闲聊和索罗斯的背痛是厚数据。
大数据的不足之处在于它缺乏厚数据携带的场景。存在主义哲学家海德格尔(Martin Heidegger)提出了“存在”(being)这一概念,它指的是世间万物存在的场景(context),我们对于任何事物的理解都不能将其孤立为一个元素,而是应考虑这个元素所处的具体场景,以及它与其它元素的相互关系。
海德格尔等人在他们的现象学(phenomenology)中对这个概念进行了更详细的阐释,现象学的目的在于描述事物真实存在的方式,而不是我们觉得他们应该存在的方式,而事物“真实存在的方式”必然离不开它所处的场景,而不是像大数据那样对现实进行标准化的切片。
需要注意的是,现象学中的“真实存在”,并不是指这件事必须在客观上是正确的,比如“世界上只有男和女两种性别”,而是当我们在某一场景下听到一个现象学的描述,被问及“你觉得是这样吗?”时,我们会点头表示同意。
同样的一杯红酒,在点亮烛光的法国餐厅与嘈杂的办公桌前饮用,注定是不一样的感受,虽然它们的化学质地是相同的。
同样是一个小时,在思修课堂和情人坡度过,必然是不同的长度,虽然它们的自然属性没有差异。
两名被数据标记有存在犯罪记录的贷款申请者,虽然数据将它们一视同仁,然而一位只是过失的交通肇事,另一位则有抢劫银行的前科,他们在未来的还款能力或许大相径庭。
身为数据工作者,当然希望数据和算法能尽可能多地代替人类的工作,但正如我们在项目中看到的,现实并非如此,仅仅面对数据和算法并无法洞察每个申请者所处的独特场景。机器学习与人类决策是相互补充,而非相互替代的关系。
这也是为什么,数据分析师们一定要驻场工作,因为只有像信审专员那样身处业务前线,才能对那些贷款的申请者形成更加深刻的体会。
之所以与大家分享场景、厚数据、现象学这些概念,是因为在这个大数据概念传遍街头巷尾的时代,我们极易选择用简单的数据标签衡量一切:
选择去哪家餐馆,只看大众点评的总体评分,并不在意网友的大段评论。
决定在哪里读大学,先看学校的综合及专业排名,不在乎学长学姐们分享的体会。
想了解用户对产品的满意度,只要求1000人在问卷上打分,不会深度访谈用户使用产品时的具体想法和感受。
后者事实上代表了一种以现象学为基础的“文科思维”,即我们只关注每个独特场景下的主观体验,不会尝试将许多场景标准化,然后贴上统一的数据标签。
研究文科思维的专家Christian Madsbjerg认为文科思维是培养我们对外界的敏感度的重要途径,所谓的敏感度,指的是我们察觉事物间微妙差别的能力。正如两杯红酒,在不同地点的1小时,两名数据画像相同的申请者,辨别它们之间的差异需要的正是文科思维。
Madsbjerg指出学习诸如艺术、历史、哲学、社会学、人类学这些人文学科是培养文科思维的重要手段。因为这些学科中存在大量基于具体场景的思考和感知,比如艺术课教你欣赏达芬奇的作品,社会学家擅长消费者深度访谈,人类学家喜欢实地观察原始部落等,它们不会教你如何将世界编码成一张数据表格,却能培养你洞察世间微妙区别的能力。
前段时间看了《看不见的客人》,这是一部悬疑剧,剧情围绕一名成功的银行家与一名女律师之间的对话展开,女律师试图帮助银行家摆脱杀人的罪名,但殊不知她就是杀人案中被害者的母亲。
《看不见的客人》中的女律师
与我一起看电影的小闷同学在女律师出场时脱口而出:“我感觉这个律师就是他妈妈。”她的感觉惊人的准确。
电影结束我问小闷,她是如何做出这样的判断的,小闷说律师的面部表情看上去很奇怪,不像一名提供专业服务的人,这显然不是机器学习算法所能实现的。
今天的内容或许能给小闷对外界的敏感提供解释:她是一名文科生,而且很喜欢看电影。
最后,与你分享一个关于文科生的好消息。薪酬调研公司PayScale曾做过一项调查,在薪酬排名前20的毕业生专业中,计算机工程、化学工程这样的理工类专业长期占榜,而社会学、历史学这样的人文学科则十分罕见。
这听上去符合我们的直觉,但如果我们观察那些收入排在前10%的人,具有政治科学、哲学、戏剧、历史背景的专业人士则会脱颖而出,宝洁前CEO雷富礼曾对实现商业成功单单提出一条建议:取得一个文科(或称“自由技艺”)学位(pursue a degree in liberal arts)。
这样的建议无疑是有道理的,毕竟,真实的世界不是电子表格。
数据分析咨询请扫描二维码
《Python数据分析极简入门》 第2节 4 Pandas条件查询 在pandas中,可以使用条件筛选来选择满足特定条件的数据 importpanda ...
2024-11-22数据分析师的工作内容涉及多个方面,主要包括数据的收集、整理、分析和可视化,以支持商业决策和问题解决。以下是数据分析师的一 ...
2024-11-21数据分析师必须掌握的技能可以从多个方面进行归纳和总结。以下是数据分析师需要具备的主要技能: 统计学基础:数据分析师需要 ...
2024-11-21数据分析入门的难易程度因人而异,总体来看,入门并不算特别困难,但需要一定的学习和实践积累。 入门难度:数据分析入门相对 ...
2024-11-21数据分析是一项通过收集、整理和解释数据来发现有用信息的过程,它在现代社会中具有广泛的应用和重要性。数据分析能够帮助人们更 ...
2024-11-21数据分析行业正在迅速发展,随着技术的不断进步和数据量的爆炸式增长,企业对数据分析人才的需求也与日俱增。本文将探讨数据分析 ...
2024-11-21数据分析的常用方法包括多种技术,每种方法都有其特定的应用场景和优势。以下是几种常见的数据分析方法: 对比分析法:通过比 ...
2024-11-21企业数字化转型是指企业利用数字技术对其业务进行改造和升级,以实现提高效率、降低成本、创新业务模式等目标的过程。这一过程不 ...
2024-11-21数据分析作为一个备受追捧的职业领域,吸引着越来越多的女性加入其中。对于女生而言,在选择成为一名数据分析师时,行业选择至关 ...
2024-11-21大数据技术专业主要学习计算机科学、数学、统计学和信息技术等领域的基础理论和技能,旨在培养具备大数据处理、分析和应用能力的 ...
2024-11-21《Python数据分析极简入门》 第2节 3 Pandas数据查看 这里我们创建一个DataFrame命名为df: importnumpyasnpi ...
2024-11-21越老越吃香的行业主要集中在需要长时间经验积累和专业知识的领域。这些行业通常知识更新换代较慢,因此随着年龄的增长,从业者能 ...
2024-11-20数据导入 使用pandas库的read_csv()函数读取CSV文件或使用read_excel()函数读取Excel文件。 支持处理不同格式数据,可指定分隔 ...
2024-11-20大数据与会计专业是一门结合了大数据分析技术和会计财务理论知识的新型复合型学科,旨在培养能够适应现代会计业务新特征的高层次 ...
2024-11-20要成为一名数据分析师,需要掌握一系列硬技能和软技能。以下是成为数据分析师所需的关键技能: 统计学基础 理解基本的统计概念 ...
2024-11-20是的,Python可以用于数据分析。Python在数据分析领域非常流行,因为它拥有丰富的库和工具,能够高效地处理从数据清洗到可视化的 ...
2024-11-20在这个数据驱动的时代,数据分析师的角色变得愈发不可或缺。他们承担着帮助企业从数据中提取有价值信息的责任,而这些信息可以大 ...
2024-11-20数据分析作为现代信息时代的支柱之一,已经成为各行业不可或缺的工具。无论是在商业、科研还是日常决策中,数据分析都扮演着至关 ...
2024-11-20数字化转型已成为当今商业世界的热点话题。它不仅代表着技术的提升,还涉及企业业务流程、组织结构和文化的深层次变革。理解数字 ...
2024-11-20在现代社会的快速变迁中,选择一个具有长期增长潜力的行业显得至关重要。了解未来发展前景好的行业不仅能帮助我们进行职业选择, ...
2024-11-20