判案预测:大数据PK83位法律专家_数据分析师
法律的生命不在于逻辑,而在于经验?经验与规律哪个更可靠?十余年前一场预测法官判案结果的PK,大数据计算程序出人意料地胜过了83位法律专家,这值得我们关注和思考。天同诉讼圈(微信号:tiantongsusong)今日为您推荐。
2001年,宾夕法尼亚大学法律系教授特德·鲁格(TedRuger)正在参加一个研讨会,听取安德鲁·马丁(Andrew Martin)和凯文·奎因(Kevin Quinn)两位政治学家关于一篇大数据分析文章的报告。马丁和奎因所报告的文章称,仅仅利用与案件政治特征相关的几个变量,他们就能预测出高等法院法官的投票结果。对此,特德不以为然。
特德看起来一点儿也不像大家平时看到的那些貌似身体瘦弱的学究们;他的身材像运动员一样健硕,长着方下巴,脸上虽然布满皱纹但容貌英俊。他听研讨会时,不喜欢那些政治学家们报告其研究结果的方式。“他们实际上用了预测这一术语,”他告诉我,“我坐在那里听,就像一个怀疑论者。”他不喜欢这篇文章,因为他们所做的是预测过去。“跟很多法律或政治科学研究一样,”他说,“这篇文章本质上也是针对过去的。”
因此,在研讨会结束后,他走到他们跟前提出自己的建议。“从某种意义上来说,这一项目的起源就是我事后跟他们说,为什么不做一个前向的检验呢?”他们谈着谈着,就决定进行一场比赛——“友好的跨学科竞赛”,比较一下预测高等法院案例审判结果的两种不同方法。一边是政治学家的大数据分析预测,另一边是83位法律专家的意见。他们的任务是提前预测每位法官对2002年高等法院审过的每个案件的投票结果。专家就是真实的法律资深人士,包括法律系教授、法律从业人员以及法律博学人士(共有38人担任过高等法院法官,33人有教授职称,5人担任或曾担任法律系主任)。大数据分析计算程序要对所有案件的所有法官的投票做出预测,而专家只需预测在他们所专长的领域内的案件投票情况。
令特德没想到的是,比赛结果竟然打成了平手。政治学家的模型考虑了如下六个因素:
(1)案件最初的巡回法庭;
(2)案发地区;
(3)原告类型(如美国、公司雇主,等等);
(4)被告类型;
(5)低等法院规章的意识形态倾向(自由还是保守);
(6)原告是否称某项法律或条例不符合宪法。
特德说:“我原本认为他们的模型包含了决策制定过程中太多没必要的细节,因此法律专家应该预测得更好一些。”对于法律和过去案件的透彻了解毕竟还是管点用的。
这个简单的检验指出了最基本的问题:什么是法律。法官奥利弗·文德尔·霍姆斯(Oliver Wendell Holmes)首创了法律预测说。“法律的生命不在于其逻辑性,而在于经验。”对霍姆斯来说,法律只不过是“对于法官会怎么做的一种预测”而已。霍姆斯不同意哈佛大学主任(也是苏格拉底式法律教育方法的权威)克里斯多夫·哥伦布·兰德尔(Christopher Columbus Langdell)的观点,后者认为“法律是一门科学,这门科学所有能够获得的资料都已经包含在教科书中了。”霍姆斯认为准确的预测与“时间的紧迫性、对于公共政策的直觉、公开或下意识的甚至对于与自己观念相同的法官的偏见”等等密切相关。
政治学中的主流统计模型都是霍姆斯模型,因为该模型几乎完全强调法官的偏见,即主观意识想法。政治学家常常会假设政治理念固定不变,并且服从从自由到保守的平滑分布。根据这种大数据分析计算程序得出的决策树只有细微差别。马丁和奎因使用这9名法官以前审过的628起案件的历史数据,首先考察何时这六大因素预测出的决策结果是一致同意审理或一致驳回上诉。然后,再使用同样的历史数据,针对没有达成一致意见的案件,找出能够最好地预测出每个法官投票的流程图(有条件地结合上述因素)。例如,下面这幅图就是真实研究中用来预测桑德拉·戴·奥康纳(Sandra Day O’Connor)法官的投票流程图。
资料来源:Andrew D. Martin et al,“Competing Approaches to Predicting SupremeCourt Decision Making,”2Perspectives on Politics 763 (2004)
这幅用于预测的流程图相当简单。第一个决策点预测只要低等法院的法案是“自由的”,奥康纳就会驳回上诉。因此,在“格鲁特对伯林杰”案(Grutter VS Bollinger)中,高等法院2002年所审案件挑战着密歇根大学法学院(Michigan Law School)同意审判的合宪决定,该模型仅仅因为低等法庭的审判(在支持法学院同意审判的决定方面)是自由的而错误地预测奥康纳会驳回上诉。如果低等法庭是“保守的”,流程图就会略微复杂一些,决定因素包括最初巡回法庭的预测、被告类型以及案件提交地区。当然,这种统计预测完全忽略了本案件及其之前该法庭所审案件的具体特定问题。而对特定问题了解深入的法律专家自然会做得更好一些。
请注意,使用统计模型时,我们仍然需要人来为案件编码。关键是要有专家来决定低等法庭的决策是“自由的”还是“保守的”。研究表明怎样使统计预测与主观判断相符且相关。统计决策规则不可能不依赖于专家或临床医生的主观判断。规则可以问护士是否认为病人看起来“感觉不舒服”。但这是一种不同寻常的专业知识。不需要依赖专家做出最终决策,专家只需要针对某个症状存在还是不存在给出意见。人类专家也许有一定的发言权,但是大数据分析方程限制了他们自由处置的能力。
特德“进行前向检验”的简单想法为进一步的检验铺平了道路。随着高等法院审判过程的进行,很多知情人都满怀兴趣等着看这项检验。做出最终决策之前,网站上会公布计算机和专家分别做出的预测,这样每个陪审员的观点提交上去时,人们就都可以直接看到结果了。
最后专家输了。对于2002年审判的所有案件,模型预测的法庭同意审判或驳回上诉的结果正确率为75%,而所有法律专家一起只预测对了59.1%。在预测奥康纳法官和肯尼迪的关键选票上,大数据分析尤为有效。对于奥康纳的选票,模型预测正确率为70%,而专家的正确率仅为60%。
极为简化的统计模型的预测能力不仅胜过律师,而且胜过拥有案件详细信息的该领域专家,这怎么可能呢?这一结果只是统计上的反常现象吗?它与法律界的特质或自大有没有关系?简单地回答,特德的检验代表了更加一般意义上的现象。几十年来,社会学家一直在比较大数据天才与传统专家的预测谁更准确。一个又一个的研究表明,大数据天才有占上风的趋势。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
“我们的利润率上升了,但销售额却没变,这是为什么?” “某个业务的市场份额在下滑,到底是什么原因?” “公司整体业绩稳定, ...
2025-02-26在数据分析工作中,你可能经常遇到这样的问题: 从浏览到消费的转化率一直很低,那到底该优化哪里呢? 如果你要投放广告该怎么 ...
2025-02-25近来deepseek爆火,看看deepseek能否帮我们快速实现数据看板实时更新。 可以看出这对不知道怎么动手的小白来说是相当友好的,尤 ...
2025-02-25挖掘用户价值本质是让企业从‘赚今天的钱’升级为‘赚未来的钱’,同时让用户从‘被推销’变为‘被满足’。询问deepseek关于挖 ...
2025-02-25在当今这个数据驱动的时代,几乎每一个业务决策都离不开对数据的深入分析。而其中,指标波动归因分析更是至关重要的一环。无论是 ...
2025-02-25以下文章来源于数有道 ,作者数据星爷 SQL查询是数据分析工作的基础,也是CDA数据分析师一级的核心考点,人工智能时代,AI能为 ...
2025-02-25“最近复购率一直在下降,我们的营销力度不小啊,为什么用户还是走了?” “是不是广告投放的用户质量不高?还是我们的产品问题 ...
2025-02-25在数据分析中,地图是一种非常直观的可视化工具,能够帮助我们更好地理解数据在地理空间上的分布情况。无论是展示销售数据、人口 ...
2025-02-25春风拂面,金三银四的求职季如期而至。谁都想在这场竞争里拿下心仪offer。 一份亮眼简历是求职敲门砖,面试紧张则可能让机会溜 ...
2025-02-24当数据开始说谎:那些年我们交过的学费 你有没有经历过这样的场景?熬了三个通宵做的数据分析报告,在会议上被老板一句"这数据靠 ...
2025-02-17数据分析作为一门跨学科领域,融合了统计学、编程、业务理解和可视化技术。无论是初学者还是有一定经验的从业者,系统化的学习路 ...
2025-02-17一秒精通 Deepseek,不用找教程,不用买资料,更不用报一堆垃圾课程,所有这么去做的,都是舍近求远,因为你忽略了 deepseek 的 ...
2025-02-12自学 Python 的关键在于高效规划 + 实践驱动。以下是一份适合零基础快速入门的自学路径,结合资源推荐和实用技巧: 一、快速入 ...
2025-02-12“我们的利润率上升了,但销售额却没变,这是为什么?” “某个业务的市场份额在下滑,到底是什么原因?” “公司整体业绩 ...
2025-02-08活动介绍 为了助力大家在数据分析领域不断精进技能,我们特别举办本期打卡活动。在这里,你可以充分利用碎片化时间在线学习,让 ...
2025-02-071、闺女,醒醒,媒人把相亲的带来了。 我。。。。。。。 2、前年春节相亲相了40个, 去年春节相亲50个, 祖宗,今年你想相多少个 ...
2025-02-06在数据科学的广阔领域中,统计分析与数据挖掘占据了重要位置。尽管它们常常被视为有关联的领域,但两者在理论基础、目标、方法及 ...
2025-02-05在数据分析的世界里,“对比”是一种简单且有效的方法。这就像两个女孩子穿同一款式的衣服,效果不一样。 很多人都听过“货比三 ...
2025-02-05当我们只有非常少量的已标记数据,同时有大量未标记数据点时,可以使用半监督学习算法来处理。在sklearn中,基于图算法的半监督 ...
2025-02-05考虑一种棘手的情况:训练数据中大部分样本没有标签。此时,我们可以考虑使用半监督学习方法来处理。半监督学习能够利用这些额 ...
2025-02-04