大数据时代,人类需被遗忘权_数据分析师
大数据之父维克托·迈尔-舍恩伯格所著《删除:大数据取舍之道》(Delete: The Virtue of Forgetting in the Digital Age,2009)一书,被认为是关于数据的开创性作品,并且创造了“被遗忘的权利”的概念而在媒体圈和法律圈得到广泛运用。《删除》一书写道:“过去正像刺青一样被刻在我们的数字皮肤上,遗忘已经变成了例外,而记忆却变成了常态……”大数据时代,人类该如何构建积极而安全的未来?这一问题引人深思。
2014年3月,迈尔-舍恩伯格又出版了新书《与大数据同行:学习与教育的未来》(Learning With Big Data)。在接受澎湃新闻记者访谈时,迈尔-舍恩伯格指出,在大数据时代,民主是尤其被挑战的,于是,大数据时代的民主要求民众有更高的教育程度。《与大数据同行》揭示了蓬勃发展的在线教育产生了大数据,已是不可阻挡的趋势,但同时,教育作为影响人类未来发展的重要领域,同时也要谨慎地防止大数据的滥用,“防止过去完全地决定我们的未来”。以下为两书摘要:
《删除:大数据取舍之道》,维克托·迈尔-舍恩伯格著,袁杰译,浙江人民出版社,2013年1月。
遗忘作为一种生理机制,如何影响人类的决策?
遗忘在人类决策过程中扮演了重要的角色,遗忘使得我们能够及时地进行行动。知晓往事,但又不受往事的束缚。完善的数字化记忆,可能会让我们失去一项人类重要的能力——坚定地生活在当下的能力。博尔赫斯的短篇小说《博闻强识的富内斯》展现了这一论点。由于一次骑马的事故,年轻人富内斯失去了遗忘的能力。通过惊人的阅读,他积累了大量关于经典文学作品的记忆,但却无法超越字面的文字去领会作品的内涵。博尔赫斯暗示,一旦我们拥有了完善的记忆,我们将不能进行概括与抽象化,这会让我们一直迷失在过去的琐碎细节中。
那些在存储与回忆大量信息方面拥有超常能力的人,其实很想关闭他们记忆新事情的能力。持续浮现的往事让他们感觉受到了束缚,这种束缚非常严重,以至于约束了他们的正常生活,限制了他们的决策能力,阻碍了他们与正常人建立紧密的联系。当这种影响由更为完整且更易获取的外部数字化记忆所引起时,影响可能会更强。如果回忆太清晰,即便这种回忆是为了帮助我们的决策,可能也会使我们困于记忆之中,无法让往事消逝。这反而会让我们像博尔赫斯笔下的富内斯一样,没有能力进行抽象的思考。这是记忆带来的意外诅咒。
遗忘不仅仅是一种个人的行为,我们这个社会也会遗忘。往往这种社会性的遗忘能给那些失败过的人第二次机会。如果原先的社会关系不能让人们感到幸福,我们可以让他们尝试建立新的社会关系。在商业领域中,随着时间流逝,破产会被逐渐遗忘。甚至在某些情况下,罪犯在经过足够长的时间之后,之前的犯罪记录也能从他们的档案中变得模糊。
通过很多这种模糊掉了外部记忆的社会遗忘机制,我们的社会能够接受随着时间不短发展的人们,因此我们才有能力从过去的经历中吸取教训,并调整我们的行为以融入未来的社会。
尽管遗忘对于人类非常重要,但是在数字时代,我们却正在经历一种重大的转变,从遗忘为常态转移到记住为常态,而且目前为止,这一现象得到的关注非常有限。
生物性的遗忘就存在于我们人类的生理当中,通过人类几千年的进化,我们都未能发展出一种代替的认知能力,去正确地评估我们过去发生的事件。这样一种解释与通常情况下进化的运作方式相一致,进化就是一个实际而保守的过程。与那些更复杂的代替方法相比,那些经过试验和测试,已经能够良好运作的方法更受青睐。对我吗而言,可能进化留给我们的就是生物性的遗忘,而不是详细感知理解过去事件的能力。
随着我们通过使用数字化记忆破坏了生物性的遗忘,使得我们自己更容易受到犹豫不决或者判断失策的影响。这是数字化记忆的诅咒。他远远超出了信息权力转移的范围,已经涉及了我们人类及时行事能力的核心。
博尔赫斯曾写道,“思考就是去忽略(或者遗忘)差异,思考就是去概括,去抽象。”对于博尔赫斯而言,完美的记忆力通过永不消褪的复杂信息威胁着要折磨它的受害者,使其无法拥有清晰的抽象思维,因此就像《追忆逝水年华》中的马塞尔·普鲁斯特一样,将那些受折磨的人囚禁在自己的记忆之中——而正是遗忘这一人类独有的特性,才让我们得以从细碎的细节中抽身,把握世界的一般规律。
如果我们没有遗忘的能力,那么每当面临抉择时我们往往都会回忆起我们过去所有的选择,这可能将会使我们犹豫不决。AJ,一个由于某些生理特性而拥有了近乎完美记忆力的女人这样告诉我们:
我记得好的事情,这让我感觉很舒服,但是我也记得那些不好的事情,以及每一次糟糕的选择。而且事实上,我无法让自己停下来休息。我所面对的都是这些岔路口,都是我不得不做出选择的时刻,而且哪怕过去了十年,我仍然会因为十年前作的选择而责备自己。在许多事情上,我都不肯原谅我自己。你的记忆之所以存在是为了保护你,而我感觉我的记忆并没有保护我。大多数人都说我拥有一项天赋,但是我只觉得它是负担。
从这种意义上看,遗忘并不是令人困扰的缺陷,而是一种足以救命的优势。当我们忘记了过去的时候,我们便重新获得了去概括,去概念化的自由,以及最重要的行动的自由。
大数据时代,人类需要“遗忘权”
作为人类,我们不能无知地穿越时间去旅行。因为我们有记忆的能力,所以我们能够去比较,去学习,去体验时间的变化。同样重要的是,我们有遗忘的能力,有将我们自身从过去桎梏中解放出来的能力,有活在当下的能力。过去几千年,记忆和遗忘之间的关系一直很清楚。记住很难而且代价高昂,因此人类不得不谨慎地选择哪些值得记住。人类默认的状态是遗忘。在数字时代,或许人类发生的最根本的改变,就是记忆与遗忘原有平衡的反转。将信息提交给数字储存器已经成为默认状态,而遗忘则成了例外。
数字化使得储存成本的垂直下降、简便的信息提取,以及全球性访问数字化记忆成为可能。在人类历史上,这是第一次我们能够让记住比以往更便宜也更容易,也是第一次逆转了遗忘由来已久的默认状态。原因显而易见——即使人类自身的记忆经常失效,难道我们大家都不想选择拥有全面的记忆吗?难道我们大家都不想给子孙后代留下我们的思想和印迹吗?如今,我们发现已经身处一个拥有完整数字化记忆的“美丽新世界”。
在这个世界中,诸如GOOGLE之类的信息处理器让全世界能够访问海量信息,从照片到博客,从详细的市场信息到我们自家(和邻居家)后院的高清卫星图像。很快,这样的案例将会成为普遍现象:过去微不足道的行为被完全记忆下来,生活因此被打乱(或者至少被干扰了),个人被暴露在苛刻到不可思议的社会面前,这不仅仅发生在北美,而是在全世界。事实上,在这本书的写作过程中,德国一个小小的保守派政治家就被解雇了,因为在一个类似facebook的社交网站上显示,过去他曾加入了一个名字和内容都有些可疑的在线团体。
针对为什么这个趋势将与我们有关,我解释了两个重要原因。首先,信息隐私专家指出,它进一步将权力从被监视者转移到监督者身上,同时跨越时间的维度。的确如此。数字储存器的发展,让我们能够相对容易地重塑言行,即便它们已经过去了很久,他们建造起来的不仅是空间上与时间上的“圆形监狱”,而且还约束我们表达想法和参与社会的意愿。我们真的想生活在一个充满了奴性和恐惧的社会中吗?
其次,遗忘在人类决策中起到了重要的作用。它允许我们从个人经验中去概括和抽象。它使得我们能够接受自身,就像所有的生命一样,会随着时间推移发生改变。因此,它让我们瞄准当下,而不是将我们永久地拴在一个与现实越来越无关的过去里。而且,遗忘能使社会原谅它的成员,并且对改变保持开放的态度。数字化记忆渐渐破坏了遗忘所起到的重要作用,从而同时在个人和社会两个层面上威胁到我们学习、诠释和适时行动的能力。它还让我们暴露在人类具有潜在毁灭性的过度反应面前——那就是另一个极端,完全漠视我们的过去。
我们必须应对数字化记忆造成的挑战,而且我相信我们能够应对,能够恢复遗忘的能力。我并不是在鼓吹一个无知的未来,而是一个承认随着时间的推移人类会改变,想法会演变、观点会调整的未来。我们能够采用多种不同的方法,应对数字化记忆的阴影。
《与大数据同行:学习与教育的未来》,维克托·迈尔-舍恩伯格、肯尼思·库克耶著,赵中建、张燕南译,华东师大出版社,2014年12月。
过往的个人数据,能否成为主要评估依据?
我们作为个人,不断地成长、发展、变化,而那些多年来全面收集的教育数据却始终保持不变。尽管我们可能成长为脾气最温和的人,但如果数据显示我们在过去的学生时代经历过一个性情激进的时期,那么未来的评估者还能以恰当的角度出发,看待这些过往的数据吗?如果不能,我们将永远受制于我们的过去——即使它代表的是一个已经不存在的人,并且那个人的价值观和现在的自己已然没有多少相似之处了。不断回顾过时的个人数据,不仅是不公正的,还会产生错误的结果。
想象一下,某个学生的活动记录被存储下来,并在25年后他找工作的时候被提供给未来的雇主,这将会是怎样的情形?在今天,除了知名人士,对普通人过往记录的访问是极难实现的。然而在未来,每个人都能够常规性地访问这些信息。而且可能不只是类似标准化大学入学考试的相关数据的“快照”,还包括当事者学习生涯中相关进程的每一个碎片化记录,从病假天数和访问辅导员的次数,到阅读了《哈克贝利·费恩历险记》(Huckleberry Finn)的页数和在上面标示下划线的页数。
最大隐患:无法遗忘的旧数据
这并不代表关于我们过去的数据是无用的,但是必须在更广泛的背景下去了解我们是谁,以及我们所做的事。评估人员需要极其谨慎地对待过去的数据,客观判断这些信息与今天的我们是否存在关联。这似乎是显而易见的道理,然而在实践中却很难把握。人们往往很难理解时间是变化的一个维度。
人类从不需要建立直接的认识方式,以合适的视角来看待在遥远的过去发生的事情,因为我们的大脑中早已内建了最佳的方式:遗忘。我们的大脑不断忘记那些被认为与当下和未来无关且无用的过往细节。遗忘是心理上的大扫除,我们无须有意识地去关注这个过程,就可以在它的帮助下坚定不移地抓住当下。有遗忘困难的人群对研究人员形容自身的状态为“是诅咒而不是福气”,因为这迫使他们看到的只有树木,而非森林——任何泛化都需要我们忘记细节。
在模拟时代,即使使用了电子成绩报告单和入学要求,我们的大多数学术信息仍然以纸质档案的方式进行存储。这些信息很难进行定位、存取、复制和分析,技术上的局限制约了我们与信息的交互行为,因此在实际上阻止了由此产生的不恰当的再利用。
数字工具,尤其是廉价存储和快速检索的出现,使今天的教育数据极大地延长了保存时间,并且更易存取。招聘人员不仅会使用谷歌搜索求职者的信息,有一些甚至开始要求他们提交Facebook的详细日志。招聘人员能够查看求职者近十年的个人观点、兴趣爱好和欠考虑的自拍照。也许更加令人担忧的是,他们还能看到其他人对求职者的评论。
这些旧数据的持久性是最大的隐患。而我们面对着这些无法展望未来的信息,很有可能会透过这个永久记忆的棱镜——永远不能忘却的回忆——来看事物。所以即使招聘者在面试前提醒了自己十次——要忽视求职者在多年前因为一次高中考试作弊被抓的事实——但是到了对雇用与否作出决定的时刻,仍然很难做到不对其未审先判。更糟的是,这个污点可能跟随求职者到任何一个地方,就像是一个标志着不为社会忘却的事件的红字。毕竟,人们习惯记住不寻常的事件,而不是那些平凡的和最近发生的事情。
因此,全面教育数据带来的首个重大威胁,并不是信息的发布不当,而是束缚我们的过去、否定我们进步、成长和改变的能力,而且目前尚无抵御这一威胁的可靠措施。我们很难轻易改变对别人做出的评价和考虑的内容。我们大多数思维过程的发生,并不在理性的完全控制之下。另一方面,放弃数据的收集或者将其束之高阁,又将阻碍大数据为学习带来的诸多益处。
无法驳斥的大数据预测
第二个威胁也同样严峻。以所有人为对象收集到的全面教育数据,将用于对未来进行预测:我们应该以这样的速度、按这样的顺序学习;我们只有在晚上8点至9点间复习学习材料,才能有90%的可能性得到B,如果复习得早了,其可能性将会降至50%等等。诸如此类的概率预测将会限制我们的“学习自由”,并有可能最终威胁到我们对生活中机遇的获取。
大数据蕴含的巨大潜力在于推进个性化学习、改善教材和教学,并最终提高学生的成绩。数据应该被视为促进产品改良的反馈,而不是对产品使用者进行简单评价的依据。在今天,被收集的有限数据几乎都是用来评价学生的,即学习中的“消费者”。
我们评估可能的方案和潜在的成就:从高中提升课程的受理到高校录取,再到研究生院的入学。但是此类基于有限数据的小数据预测,充满了不确定性,因此招生委员会对这些数据的处理极其谨慎。他们认识到数据展示的内容并不完善——那些以高分通过SAT考试的自大狂并不是凭借真才实学,而仅仅是因为记住了复习指南——委员会积极地增加评估的主观性,当他们意识到依赖数据可能会造成以偏概全的结果时,会将主观判断置于数据决断之前。
然而,大数据时代的预测精确度将远远超过现在。这向招生委员会和招聘人员等决策制定者施加了更多的压力,使其更倾向于相信基于大数据的预测。在过去,我们可以辩称所属的分组不是特别适合自己,为某种情况找到开脱的理由。比如,我们有可能被分到“好学生,但是搞不定统计课”的群组中,并最终因此被经济学专业拒之门外。但是我们仍然可以凭借这样的解释说服别人:基于这一分组的预测于我们而言是不正确的,所以即使同组的其他成员会失败,我们还是有可能获得成功。因为该预测是基于“小数据”做出的,决策制定者往往倾向于相信当事人是“无辜”的,而当事人能够通过协商为自己辩解。
而新的威胁在于,基于大数据的预测是如此准确、个性化程度如此之高,我们将不再因为名义上所属的分组,而是实实在在的“自己”被问责。因此,任何借口都可能不足以说服决策制定者站在我们这一边。事实上,认人来作判定有可能完全地从决策过程中移除,取而代之是以机器算法为基础的操作,包括读取电子数据表、计算概率并作出有约束力的决定,而这一系列操作仅需耗时几毫秒。
比如说,一些大学正在开展“电子顾问”(e-advisors)的实验,这款大数据软件系统通过数字处理提升学生的毕业率。自2007年亚利桑那大学采用该系统至今,学生顺利升学的比例已由77%上升到84%。在田纳西州的奥斯汀州立大学,当学生选修“学位罗盘”(Degree Compass)软件向其推荐的课程后,他们有90%的可能性得到与软件预测一致的B以上的高分,而没有获益于“学位罗盘”的学生,获得同样分数的比例仅占60%。
备受争议的教育分流
这些系统可以大大提高毕业率。鉴于美国只有大约一半的学生能够在6年内毕业,所以其影响是相当显著的。但是系统也可能带来一些不良后果。假如系统预测我们不太可能在一个学科领域(如生物信息学)取得良好成绩,于是巧妙地引导我们转入护理之类的其他专业,我们应该如何看待系统的决策?我们可能会认为系统考虑到了我们的最大利益——为我们提供了一个舒适的教育轨迹。但实际上,这可能正是问题所在,也许我们应该受到鼓励并迎难而上,而不是满足于平坦的前进路线。
本质上,这些概率预测能帮助决策制定者——从招生委员会到招聘人员——选择安全的路线并减少将来失望的可能性。这种主张是极具吸引力的,尤其是在与可能会造成利益受损的学术失误(如未能毕业或选择了难以胜任的专业)相比的情况之下。如果相关机构不遵照大数据的预测行事,甚至可能需要承担潜在的法律责任。
概率预测最有可能深入人心,同时也最有可能造成巨大伤害的地方在于按成绩编组制。数十年以来,许多国家都过早地将学生分配到不同的学习轨道之上,通常包括以下三类:面向成绩欠佳学生的职业教育;面向一般学生的普通课程;面向杰出学生的“大学先修课程”。这种做法一直备受争议,它似乎在抹杀个人公平地进入大学的机会,因为学生可能在高中之前就被排除在大学预科的就读对象之外。它还可能加深教育鸿沟,使社会和经济上的鸿沟持续存在,更多的妇女和少数族裔将被上层淘汰。
与大数据同行的一大风险
有希望——但只是一个希望——按成绩编组制可能会因为大数据而消失。当学生按照自己的步调开展学习、学习的顺序也得到了算法上的优化,且能够取得最佳学习效果的时候,对他们进行正式的编组可能没有太大的必要。
然而在现实中,情况很可能是相反的。定制教育实际上可能更为无情地恪守编组制,使得试图或是有能力打破特定轨道的学生更加步履维艰。今天的教育中有10亿条不同的轨道:每个学生各一条。其有利的一面在于,教育是为每一个个体定制的;而不利的一面在于,它就像是困住我们的峡谷深沟,实际上可能更加难以逾越。我们仍然深陷于轨道之中,即使它是量身定做的。
系统预测某个特定学生的成功概率可能是基于100万个其他学生的表现做出的,并且将以此为依据,向该生提供直接的定制教育,而在某种程度上,这也是按成绩编组。这是否真的远胜于将该生编入一个普通班级,给他更多的机会寻找并展示他的真实技术水平?预测结果或许是准确的,在某些情况下也是有益的,但同时也是无情的。该生成为了概率预测而不是自身能力的受害者。
这些对我们在各方面可能性的预测,不仅会影响我们的行为,还将永远改变未来的格局——由一片开阔的空间转变为预定义的、拘泥于过去的狭窄区域。这会不会使我们的社会倒退进入一种近似种姓制度的新形式——精英和高科技封建主义的古怪联姻?
在20世纪,教育是最伟大的“均衡器”。而如今,与大数据同行是有一定风险的,因为我们对潜在后果和概率性结果的预测有加大教育不平等的可能。
数据分析咨询请扫描二维码
必备的职业技能 统计学基础 - 理解概率、假设检验、回归分析等统计概念。 - 运用统计方法对数据进行分析和解读。 编程能力 - 掌 ...
2024-11-27基础课程 - 统计学基础: 统计学是数据分析的基石,包括概率、假设检验、回归分析等基本知识。这有助于分析师更好地理解数据背后 ...
2024-11-27数据分析领域涉及众多工具软件,涵盖了从数据处理、分析到可视化的各个方面。在选择适合自己需求的工具时,需要考虑数据规模、分 ...
2024-11-27在数据分析领域,选择合适的工具至关重要。不同的软件适用于不同的需求和技能水平。以下是几款值得考虑的数据分析软件: - Table ...
2024-11-27数据分析中常用的Excel与Python函数公式涵盖了广泛的应用场景。掌握这些基础和高级技巧对于成为一名优秀的数据分析师至关重要。 ...
2024-11-27Python是一种高级编程语言,由荷兰程序员Guido van Rossum于1989年圣诞节期间开始开发,并于1991年首次发布。Python的设计哲学强 ...
2024-11-27课程内容 数学基础: 高等数学、线性代数、概率论与数理统计、微积分等为算法设计和数据分析打下基础。 编程与算法: 掌握 ...
2024-11-27爬虫工程师是互联网时代中至关重要的职业之一,他们的工作内容主要涉及编写和维护网络爬虫程序,进行数据采集与清洗,设计系统架 ...
2024-11-27技能需求 数据管理与建模 - 掌握SQL、HiveQL、Spark SQL等数据库语言,进行复杂数据查询和分析。 - 使用数据建模工具如ER/Studio ...
2024-11-27技术技能 - 编程技能 - 掌握SQL、Python、R语言等编程工具是基本要求,可用于数据提取、清洗和分析。 - 数据分析与建模技能 ...
2024-11-27财务数据分析职业展望 - 需求激增: 随着企业信息化和数字化进程的加速,财务数据产生和积累速度急剧增长,推动了财务数据分析需 ...
2024-11-27技术技能 数学与统计技能:数据分析师需要具备扎实的数学基础,包括统计学、概率论、多变量微积分和线性代数等知识,以帮助理 ...
2024-11-27选择适当的工具和软件 选择恰当的工具对于创建出色的数据分析图表至关重要。Excel提供强大的数据可视化功能,R语言的ggplot2包 ...
2024-11-27初级市场分析师在工作中面临着重要任务之一:评估竞争对手的表现。这项工作不仅有助于描绘行业竞争格局,还能帮助企业发现自身的 ...
2024-11-27基础知识的建立 要想在数据分析领域脱颖而出,首先需要打好坚实的基础。 数据分析的基础知识十分重要,其中包括统计学、概率论、 ...
2024-11-27# 要学习Python数据分析 掌握Python基础知识 - 首先需要掌握Python的基础知识,包括基本语法、数据结构(如列表、元组、字典等) ...
2024-11-27学数据分析能在什么单位工作 数据分析的就业领域概述 数据分析专业毕业生广泛应用于各行各业,包括但不限于以下单位: 政府机关 ...
2024-11-27想学数据分析需要学哪些课程 数据分析学习路径推荐 基础课程: 统计学: 统计学作为数据分析的基石,涵盖概率论、描述性统计、 ...
2024-11-27# 现在什么行业发展前景最好 **人工智能与机器学习** - 人工智能技术快速发展,广泛应用于智能家居、自动驾驶等领域。 - 具备巨 ...
2024-11-27# 未来最有前景的行业 **人工智能与机器学习** - 人工智能被认为是未来最具潜力的行业之一,其应用范围广泛,包括智能家居、医 ...
2024-11-27