大数据时代,即便匿名,也可能被人识别出来
大数据研究是否会侵犯个人隐私?这个问题一直饱受争议。一方面,加强个人信息安全的呼声从未减少;但另一方面,越来越多掌握海量个人数据的机构开始向公众开放数据源,以推动学术研究,提升企业的商业表现,或是为用户的日常生活提供便利。
脆弱的匿名:仅仅四个数据点便能识别个体?
为了保障个人信息不被泄露,数据提供方常使用随机ID代替个人身份信息。敏感的个人身份识别信息——如名字,住址,手机号码等——因而得以隐藏。但是,匿名ID并不是万全之策,更何况在大多数情况下,公开数据只能做到某种程度上的匿名。通过极其少量的外部确认信息,比如时空数据点,数据使用者就能够反向识别某个具体的个人。
在最近发表的一项研究中,MIT的Yves-Alexandre de Montjoye等学者分析了100多万用户在3个月内的信用卡消费数据。他们发现,仅仅需要4个外部确认信息,数据使用者就能以超过90%的几率识别特定用户。所谓外部确认信息,也就是跟用户相关的时空数据点,比如带有定位信息的Twitter,在Google上对某地的评价,Netfliex上的电影评分等等。
反向识别的大致流程是这样的:比如说,数据使用者想找到用户S的消费记录。他们由外部确认信息得知,S曾经在9月23号在某甜品店消费,并于9月24号在某餐馆就餐。经过在信用卡数据集中的筛选,只有一位ID为“7abc1a23”的用户完全符合上述条件。于是,只通过两条外部确认信息,研究者们就在海量的信用卡数据中找到了S,并通过ID获取了ta的所有相关记录。
尽管上诉个例略显极端,但是也为我们敲响了警钟:大数据时代,个人的日常生活轨迹极易被各个平台记录在案,它们可以互相参照,并成为其它数据集的外部确认信息。心怀不轨的攻击者,可以轻易地使用不同数据集进行比对,并定位目标个体。
数据和隐私:从历史到今天
在不同类型的数据中,个体被识别的可能性差别很大。相对而言,财经类数据,比如研究者们所使用的信用卡消费信息,能更准确地对个体进行反向识别。这些数据不仅仅包含了时间,地点,还额外加上了一重识别信息:消费金额。除此之外,手机移动数据信息、网络浏览信息、交通通勤信息等等,也都属于风险较大的类别。对于生活在网络时代的我们来说,只要曾在生活中留下过电子痕迹,个体隐私便难免遭受侵犯,甚至连匿名都无法提供足够的保护。
事实上,关于身份信息的记录早已有之,包括人口普查、选民登记、医疗信息等等。而这些数据常常在经过简单匿名处理之后,就直接向公众开放。1997年,MIT的学者Latanya Sweeney就曾质疑马萨诸塞州保险委员会公布的匿名医疗记录无法保护个人隐私。她借助该州的选民信息,成功反向识别了病患身份,并将研究结果发给州长加以警示。所以,匿名个体遭到定位的风险倒并非今天所独有。
然而,计算机技术的成熟以及大数据时代的到来,让情况变得更加糟糕。许多提供匿名用户数据的公司,都在隐私保护方面栽过跟头。2006年,美国在线(AOL)公布了65万用户在三个月内的匿名搜索数据。纽约时报依据外部信息进行对比,成功识别了部分用户的身份。在随后的法律诉讼中,AOL被迫付出了500万美元的赔偿金。
Netflix在2008年也曾陷入类似的争议。Netflix在2006年举办了著名的算法竞赛,奖励能预测用户观影偏好的最佳算法。大量的匿名用户评分数据因而被公布,并由参赛者任意使用。来自德克萨斯州大学奥斯汀分校的Arvind Narayanan 和 Vitaly Shmatikov两位学者,将Netflix的数据和IMBD的数据进行匹配,并由此识别了一些用户的身份,以及包括政治偏好在内的敏感信息。一年后,四位用户以侵犯隐私权为由将Netflix告上了法庭。
见招拆招:更复杂的匿名技术还是更完备的法律?
意识到匿名ID的脆弱和不可靠,学界和业界也在不断发明新的方法,以提升个人身份被识别的难度。Yves-Alexandre de Montjoye等研究者提供的一种解决方案是降低数据精度,比如将特定咖啡馆转换为某一区域内的餐馆,将具体时间转换为某个时间范围。但是他们承认,如果有足够多的外部确认信息,即便数据精度较低,某些个体仍旧很容易被辨识。
上文提到的Latanya Sweeney教授,则早在2002年就提出了k-匿名(k-anonymity)隐私保护模型。其它的方法还包括 l-多样化(l-diversity)、t-closeness、 差分隐私(differential privacy)、同态加密(homomorphic encryption)、零知识证明(zero-knowledge proof)等等。但是这些匿名方法都不可避免地存在局限性,无法完全阻止反向识别的实施。
比如说,所谓差分隐私,就是向原始数据中加入噪声,在增加识别难度的同时,保持数据的原有属性。一个例子是,Chrome 浏览器会首先对用户上传的数据进行随机化修改(randomized response),通过使用布隆过滤器加入噪声,再上传给服务器。苹果在2016年的世界开发者大会(WWDC)上也宣布使用类似的差分隐私方法。不过,差分隐私还是无法避免多个相关数据上报而导致的隐私泄露。更何况,道高一尺魔高一丈,匿名方法推陈出新的同时,攻击者们也会采用更为强力的识别工具。
唯一可以让我们稍许感到宽慰的是,学者们的不断努力提醒了政府,并推动了相关领域的立法行动——Latanya Sweeney就医疗隐私做出的警告,使得美国政府在2003年更新了健康保险便利和责任法案(HIPAA),进一步限制了医疗数据的披露。
现有体系的缺陷:隐私保护向何处去?
但即使在美国,立法方面的进展仍旧远远落于实践之后。美国现有法律强调,只要数据被提前模糊化,个人的身份信息得以隐藏,便可以被视为“安全”的匿名数据集,从而数据拥有者可以开放其使用权限。
至于数据被公开之后的使用限制,在现有法律框架中基本无迹可寻。更令人担忧的是,并不是所有数据公司都有保护隐私的良知,或者掌握了完备的匿名处理方法。很多时候,匿名数据被公开之后,公司就无法再通过后续手段加强其安全性。相比之下,攻击者能够不断升级技术手段,并收集其他数据来进行对比。
随着技术的普及和大数据的发展,使用者从公开资料中挖掘出个人敏感信息的难度不断降低。2014年,一名在Neustar实习的数据科学家在获取了纽约出租车轿车协会提供的出租车行车记录后,结合八卦信息网上找到的名人出行街拍图,成功识别了多位名人的上下车地点、车费、行车路径,以及其他一些出行记录,一时引发了舆论的关切。
越来越多的事例及研究表明,匿名能给个人隐私提供的保护十分脆弱,反向识别正变得愈发普遍。但是在当前的司法体系下,数据提供者依旧没有义务上报可能遭受了反向识别的数据集。攻击者们也甚少被追究责任。于是,公众很难得知,某个公开数据的匿名性是否已被攻破。无论是技术层面还是法律层面,大数据时代的隐私保护都还任重道远。
数据分析咨询请扫描二维码
在准备数据分析师面试时,掌握高频考题及其解答是应对面试的关键。为了帮助大家轻松上岸,以下是10个高频考题及其详细解析,外加 ...
2024-12-20互联网数据分析师是一个热门且综合性的职业,他们通过数据挖掘和分析,为企业的业务决策和运营优化提供强有力的支持。尤其在如今 ...
2024-12-20在现代商业环境中,数据分析师是不可或缺的角色。他们的工作不仅仅是对数据进行深入分析,更是协助企业从复杂的数据信息中提炼出 ...
2024-12-20随着大数据时代的到来,数据驱动的决策方式开始受到越来越多企业的青睐。近年来,数据分析在人力资源管理中正在扮演着至关重要的 ...
2024-12-20在数据分析的世界里,表面上的技术操作只是“入门票”,而真正的高手则需要打破一些“看不见的墙”。这些“隐形天花板”限制了数 ...
2024-12-19在数据分析领域,尽管行业前景广阔、岗位需求旺盛,但实际的工作难度却远超很多人的想象。很多新手初入数据分析岗位时,常常被各 ...
2024-12-19入门数据分析,许多人都会感到“难”,但这“难”究竟难在哪儿?对于新手而言,往往不是技术不行,而是思维方式、业务理解和实践 ...
2024-12-19在如今的行业动荡背景下,数据分析师的职业前景虽然面临一些挑战,但也充满了许多新的机会。随着技术的不断发展和多领域需求的提 ...
2024-12-19在信息爆炸的时代,数据分析师如同探险家,在浩瀚的数据海洋中寻觅有价值的宝藏。这不仅需要技术上的过硬实力,还需要一种艺术家 ...
2024-12-19在当今信息化社会,大数据已成为各行各业不可或缺的宝贵资源。大数据专业应运而生,旨在培养具备扎实理论基础和实践能力,能够应 ...
2024-12-19阿里P8、P9失业都找不到工作?是我们孤陋寡闻还是世界真的已经“癫”成这样了? 案例一:本硕都是 985,所学的专业也是当红专业 ...
2024-12-19CDA持证人Louis CDA持证人基本情况 我大学是在一个二线城市的一所普通二本院校读的,专业是旅游管理,非计算机非统计学。毕业之 ...
2024-12-18最近,知乎上有个很火的话题:“一个人为何会陷入社会底层”? 有人说,这个世界上只有一个分水岭,就是“羊水”;还有人说,一 ...
2024-12-18在这个数据驱动的时代,数据分析师的技能需求快速增长。掌握适当的编程语言不仅能增强分析能力,还能帮助分析师从海量数据中提取 ...
2024-12-17在当今信息爆炸的时代,数据分析已经成为许多行业中不可或缺的一部分。想要在这个领域脱颖而出,除了热情和毅力外,你还需要掌握 ...
2024-12-17数据分析,是一项通过科学方法处理数据以获取洞察并支持决策的艺术。无论是在商业环境中提升业绩,还是在科研领域推动创新,数据 ...
2024-12-17在数据分析领域,图表是我们表达数据故事的重要工具。它们不仅让数据变得更加直观,也帮助我们更好地理解数据中的趋势和模式。相 ...
2024-12-16在当今社会,我们身处着一个飞速发展、变化迅猛的时代。不同行业在科技进步、市场需求和政策支持的推动下蓬勃发展,呈现出令人瞩 ...
2024-12-16在现代商业世界中,数据分析师扮演着至关重要的角色。他们通过解析海量数据,为企业战略决策提供有力支持。要有效完成这项任务, ...
2024-12-16在当今数据爆炸的时代,数据分析师是组织中不可或缺的导航者。他们通过从大量数据中提取可操作的洞察力,帮助企业在竞争激烈的市 ...
2024-12-16