大数据时代,即便匿名,也可能被人识别出来
大数据研究是否会侵犯个人隐私?这个问题一直饱受争议。一方面,加强个人信息安全的呼声从未减少;但另一方面,越来越多掌握海量个人数据的机构开始向公众开放数据源,以推动学术研究,提升企业的商业表现,或是为用户的日常生活提供便利。
脆弱的匿名:仅仅四个数据点便能识别个体?
为了保障个人信息不被泄露,数据提供方常使用随机ID代替个人身份信息。敏感的个人身份识别信息——如名字,住址,手机号码等——因而得以隐藏。但是,匿名ID并不是万全之策,更何况在大多数情况下,公开数据只能做到某种程度上的匿名。通过极其少量的外部确认信息,比如时空数据点,数据使用者就能够反向识别某个具体的个人。
在最近发表的一项研究中,MIT的Yves-Alexandre de Montjoye等学者分析了100多万用户在3个月内的信用卡消费数据。他们发现,仅仅需要4个外部确认信息,数据使用者就能以超过90%的几率识别特定用户。所谓外部确认信息,也就是跟用户相关的时空数据点,比如带有定位信息的Twitter,在Google上对某地的评价,Netfliex上的电影评分等等。
反向识别的大致流程是这样的:比如说,数据使用者想找到用户S的消费记录。他们由外部确认信息得知,S曾经在9月23号在某甜品店消费,并于9月24号在某餐馆就餐。经过在信用卡数据集中的筛选,只有一位ID为“7abc1a23”的用户完全符合上述条件。于是,只通过两条外部确认信息,研究者们就在海量的信用卡数据中找到了S,并通过ID获取了ta的所有相关记录。
尽管上诉个例略显极端,但是也为我们敲响了警钟:大数据时代,个人的日常生活轨迹极易被各个平台记录在案,它们可以互相参照,并成为其它数据集的外部确认信息。心怀不轨的攻击者,可以轻易地使用不同数据集进行比对,并定位目标个体。
数据和隐私:从历史到今天
在不同类型的数据中,个体被识别的可能性差别很大。相对而言,财经类数据,比如研究者们所使用的信用卡消费信息,能更准确地对个体进行反向识别。这些数据不仅仅包含了时间,地点,还额外加上了一重识别信息:消费金额。除此之外,手机移动数据信息、网络浏览信息、交通通勤信息等等,也都属于风险较大的类别。对于生活在网络时代的我们来说,只要曾在生活中留下过电子痕迹,个体隐私便难免遭受侵犯,甚至连匿名都无法提供足够的保护。
事实上,关于身份信息的记录早已有之,包括人口普查、选民登记、医疗信息等等。而这些数据常常在经过简单匿名处理之后,就直接向公众开放。1997年,MIT的学者Latanya Sweeney就曾质疑马萨诸塞州保险委员会公布的匿名医疗记录无法保护个人隐私。她借助该州的选民信息,成功反向识别了病患身份,并将研究结果发给州长加以警示。所以,匿名个体遭到定位的风险倒并非今天所独有。
然而,计算机技术的成熟以及大数据时代的到来,让情况变得更加糟糕。许多提供匿名用户数据的公司,都在隐私保护方面栽过跟头。2006年,美国在线(AOL)公布了65万用户在三个月内的匿名搜索数据。纽约时报依据外部信息进行对比,成功识别了部分用户的身份。在随后的法律诉讼中,AOL被迫付出了500万美元的赔偿金。
Netflix在2008年也曾陷入类似的争议。Netflix在2006年举办了著名的算法竞赛,奖励能预测用户观影偏好的最佳算法。大量的匿名用户评分数据因而被公布,并由参赛者任意使用。来自德克萨斯州大学奥斯汀分校的Arvind Narayanan 和 Vitaly Shmatikov两位学者,将Netflix的数据和IMBD的数据进行匹配,并由此识别了一些用户的身份,以及包括政治偏好在内的敏感信息。一年后,四位用户以侵犯隐私权为由将Netflix告上了法庭。
见招拆招:更复杂的匿名技术还是更完备的法律?
意识到匿名ID的脆弱和不可靠,学界和业界也在不断发明新的方法,以提升个人身份被识别的难度。Yves-Alexandre de Montjoye等研究者提供的一种解决方案是降低数据精度,比如将特定咖啡馆转换为某一区域内的餐馆,将具体时间转换为某个时间范围。但是他们承认,如果有足够多的外部确认信息,即便数据精度较低,某些个体仍旧很容易被辨识。
上文提到的Latanya Sweeney教授,则早在2002年就提出了k-匿名(k-anonymity)隐私保护模型。其它的方法还包括 l-多样化(l-diversity)、t-closeness、 差分隐私(differential privacy)、同态加密(homomorphic encryption)、零知识证明(zero-knowledge proof)等等。但是这些匿名方法都不可避免地存在局限性,无法完全阻止反向识别的实施。
比如说,所谓差分隐私,就是向原始数据中加入噪声,在增加识别难度的同时,保持数据的原有属性。一个例子是,Chrome 浏览器会首先对用户上传的数据进行随机化修改(randomized response),通过使用布隆过滤器加入噪声,再上传给服务器。苹果在2016年的世界开发者大会(WWDC)上也宣布使用类似的差分隐私方法。不过,差分隐私还是无法避免多个相关数据上报而导致的隐私泄露。更何况,道高一尺魔高一丈,匿名方法推陈出新的同时,攻击者们也会采用更为强力的识别工具。
唯一可以让我们稍许感到宽慰的是,学者们的不断努力提醒了政府,并推动了相关领域的立法行动——Latanya Sweeney就医疗隐私做出的警告,使得美国政府在2003年更新了健康保险便利和责任法案(HIPAA),进一步限制了医疗数据的披露。
现有体系的缺陷:隐私保护向何处去?
但即使在美国,立法方面的进展仍旧远远落于实践之后。美国现有法律强调,只要数据被提前模糊化,个人的身份信息得以隐藏,便可以被视为“安全”的匿名数据集,从而数据拥有者可以开放其使用权限。
至于数据被公开之后的使用限制,在现有法律框架中基本无迹可寻。更令人担忧的是,并不是所有数据公司都有保护隐私的良知,或者掌握了完备的匿名处理方法。很多时候,匿名数据被公开之后,公司就无法再通过后续手段加强其安全性。相比之下,攻击者能够不断升级技术手段,并收集其他数据来进行对比。
随着技术的普及和大数据的发展,使用者从公开资料中挖掘出个人敏感信息的难度不断降低。2014年,一名在Neustar实习的数据科学家在获取了纽约出租车轿车协会提供的出租车行车记录后,结合八卦信息网上找到的名人出行街拍图,成功识别了多位名人的上下车地点、车费、行车路径,以及其他一些出行记录,一时引发了舆论的关切。
越来越多的事例及研究表明,匿名能给个人隐私提供的保护十分脆弱,反向识别正变得愈发普遍。但是在当前的司法体系下,数据提供者依旧没有义务上报可能遭受了反向识别的数据集。攻击者们也甚少被追究责任。于是,公众很难得知,某个公开数据的匿名性是否已被攻破。无论是技术层面还是法律层面,大数据时代的隐私保护都还任重道远。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
“用户旅程分析”概念 用户旅程图又叫做用户体验地图,它是用于描述用户在与产品或服务互动的过程中所经历的各个阶段、触点和情 ...
2025-01-22在竞争激烈的商业世界中,竞品分析对于企业的发展至关重要。今天,我们就来详细聊聊数据分析师写竞品分析的那些事儿。 一、明确 ...
2025-01-22在数据分析领域,Excel作为一种普及率极高且功能强大的工具,无疑为无数专业人士提供了便捷的解决方案。尽管Excel自带了丰富的功 ...
2025-01-17在这个瞬息万变的时代,许多人都在寻找能让他们脱颖而出的职业。而数据分析师,作为大数据和人工智能时代的热门职业,自然吸引了 ...
2025-01-14Python作为一门功能强大的编程语言,已经成为数据分析和可视化领域的重要工具。无论你是数据分析的新手,还是经验丰富的专业人士 ...
2025-01-10完全靠数据决策,真的靠谱吗? 最近几年,“数据驱动”成了商界最火的关键词之一,但靠数据就能走天下?其实不然!那些真正成功 ...
2025-01-09SparkSQL 结构化数据处理流程及原理是什么?Spark SQL 可以使用现有的Hive元存储、SerDes 和 UDF。它可以使用 JDBC/ODB ...
2025-01-09在如今这个信息爆炸的时代,数据已然成为企业的生命线。无论是科技公司还是传统行业,数据分析正在深刻地影响着商业决策以及未来 ...
2025-01-08“数据为王”相信大家都听说过。当前,数据信息不再仅仅是传递的媒介,它成为了驱动经济发展的新燃料。对于企业而言,数据指标体 ...
2025-01-07在职场中,当你遇到问题的时候,如果感到无从下手,或者抓不到重点,可能是因为你掌握的思维模型不够多。 一个好用的思维模型, ...
2025-01-06在现代企业中,数据分析师扮演着至关重要的角色。每天都有大量数据涌入,从社交媒体到交易平台,数据以空前的速度和规模生成。面 ...
2025-01-06在职场中,许多言辞并非表面意思那么简单,有时需要听懂背后的“潜台词”。尤其在数据分析的领域里,掌握常用术语就像掌握一门新 ...
2025-01-04在当今信息化社会,数据分析已成为各行各业的核心驱动力。它不仅仅是对数字进行整理与计算,而是在数据的海洋中探寻规律,从而指 ...
2025-01-03又到一年年终时,各位打工人也迎来了展示成果的关键时刻 —— 年终述职。一份出色的年终述职报告,不仅能全面呈现你的工作价值, ...
2025-01-03在竞争激烈的商业世界中,竞品分析对于企业的发展至关重要。今天,我们就来详细聊聊数据分析师写竞品分析的那些事儿。 一、明确 ...
2025-01-03在数据分析的江湖里,有两个阵营总是争论不休。一派信奉“大即是美”,认为数据越多越好;另一派坚守“小而精”,力挺质量胜于规 ...
2025-01-02数据分析是一个复杂且多维度的过程,从数据收集到分析结果应用,每一步都是对信息的提炼与升华。可视化分析结果,以图表的形式展 ...
2025-01-02在当今的数字化时代,数据分析师扮演着一个至关重要的角色。他们如同现代企业的“解密专家”,通过解析数据为企业提供决策支持。 ...
2025-01-02数据分析报告至关重要 一份高质量的数据分析报告不仅能够揭示数据背后的真相,还能为企业决策者提供有价值的洞察和建议。 年薪 ...
2024-12-31数据分析,听起来好像是技术大咖的专属技能,但其实是一项人人都能学会的职场硬核能力!今天,我们来聊聊数据分析的核心流程,拆 ...
2024-12-31