大数据环境下的隐私保护技术_数据分析师培训-CDA数据分析师官网

大数据环境下的隐私保护技术_数据分析师培训

2015-06-02

大数据环境下的隐私保护技术_数据分析师培训

随着互联网技术的飞速发展，整个社会被强行推入“大数据”时代。不管人们是否愿意，我们的个人数据正在不经意间被动地被企业、个人搜集并使用。个人数据的网络化和透明化已经成为不可阻挡的大趋势。过去，能够大量掌控公民个人数据的机构只能是持有公权力的政府机构，但现在许多企业和某些个人也能拥有海量数据，甚至在某些方面超过政府机构。这些用户数据对企业来说是珍贵的资源，因为他们可以通过数据挖掘和机器学习从中获得大量有价值的信息。与此同时，用户数据亦是危险的“潘多拉之盒”，数据一旦泄漏，用户的隐私将被侵犯。近年来，已经发生了多起用户隐私泄露事件，公民的个人的隐私数据保护遇到了严峻的挑战。

　　20世纪最著名的用户隐私泄漏事件发生在美国马萨诸塞州。90年代中叶，为了推动公共医学研究，该州保险委员会发布了政府雇员的医疗数据。在数据发布之前，为了防止用户隐私泄露，委员会对数据进行了匿名化处理，即删除了所有的敏感信息，如姓名、身份证号和家庭住址等。然而，来自麻省理工大学的Sweeney成功破解了这份匿名化处理后的医疗数据，能够确定具体某一个人的医疗记录。匿名医疗数据虽然删除了所有的敏感信息，但仍然保留了三个关键字段：性别、出生日期和邮编。Sweeney同时有一份公开的马萨诸塞州投票人名单（被攻击者也在其中），包括投票人的姓名、性别、出生年月、住址和邮编等个人信息。她将两份数据进行匹配，发现匿名医疗数据中与被攻击者生日相同的人有限，而其中与被攻击者性别和邮编都相同的人更是少之又少。由此，Sweeney就能确定被攻击者的医疗记录。Sweeney进一步研究发现，87%的美国人拥有唯一的性别、出生日期和邮编三元组信息，同时发布事实上几乎等同于直接公开。

　　2006年，美国在线公司（AOL）公布了超过65万用户三个月内的搜索记录，以推动搜索技术的研究。AOL同样对发布的数据进行了匿名化处理，即用一个随机数代替用户的账号。随后，《纽约时报》成功将部分数据去匿名化，并公开了其中一位用户的真实身份。这起隐私泄漏事件引起了人们的广泛关注，美国在线公司因为此事件在北加州地方法院被起诉。美国网飞公司曾（Netflix）举办了一个推荐系统算法竞赛，发布了一些“经过匿名化处理的”用户影评数据供参赛者测试，仅仅保留了每个用户对电影的评分和评分的时间戳。然而，来自德州大学奥斯汀分校的两位研究人员借助公开的互联网电影数据库（IMDB）的用户影评数据，获得了IMDB用户，并不比在Netflix上的全部电影浏览信息（包括涉及敏感题材的电影）少。为此，2009年Netflix遭到了4位用户的起诉，也不得不取消了该竞赛。

　　除了上述几个著名的用户隐私泄露事件，大数据带来的整体性变革，使得个体用户很难对抗个人隐私被全面暴露的风险，谷歌公司著名的街景服务曾引发许多摄影对象的抱怨，他们要求谷歌在街景画面中屏蔽掉自家住宅或商铺的图像，但虚化后的阴影与周边景象形成了鲜明对比，促使一些歹徒寻着“此地无银三百两”的提示，按图索骥地登堂入室。同时，传统线下企业的数据保护方式失效了，只要用户使用智能手机、上网购物或参与社交媒体互动，就必须将自己的个人数据所有权转移给服务商。更为复杂的是，经过多重交易和多个第三方渠道的介入，个人数据的权利边界消失了或者说模糊不清了，公民的个人的隐私保护遇到了严峻的挑战。

　　面对频发的隐私泄露事件，隐私保护问题需要得到有效的解决。解决的途径包括：制定法律法规、研发技术方法、规范管理措施三个方面。

　　在法律法规方面，欧美早在七十年代就有专门的隐私保护法，如下图所示：

　　香港在回归之前就颁布实施了个人数据条例。该条例1995年颁布，1996年12月20日生效。条例的执行由个人数据隐私专员监督。该条例管理个人、企业、公共机构和政府部门对于在世人士的相关数据的使用（如果这些数据可以有效识别该在世人士）。香港的PDPO条例主要强调了数据保护的六大原则：个人数据收集的目的和方式、个人数据的准确性和数据保留的时间、个人数据的使用、个人数据的安全性、信息基本有效可用、个人数据的访问。

　　我国大陆虽然没有专门的隐私保护法，但在多个法律法规的条文中涉及到了隐私保护，对保护个人隐私作了间接的、原则性的规定。例如，《中华人民共和国宪法》第三十八条、第三十九条、第四十条明确了对公民的人格尊严、住宅、通信自由和通信秘密的保护,这是我国法律对隐私权进行保护的最根本的依据；第三十八条规定:“中华人民共和国公民的人格尊严不受侵犯。禁止用任何方法对公民进行侮辱、诽谤和诬告陷害”，第三十九条规定:“中华人民共和国公民的住宅不受侵犯。禁止非法搜查或者非法侵八公民的住宅”，第四十条规定:“中华人民共和国公民的通信自由和通信秘密受法律的保护。除因国家安全或者追查刑事犯罪的需要,由公安机关或者检察机关依照法律规定的程序对通信进行检查外,任何组织或者个人不得以任何理由侵犯公民的通信自由和通信秘密”。《中华人民共和国合同法》第六十条第二款规定:“当事人应当遵循诚实信用原则,根据合同的性质、目的和交易习惯履行通知、协助、保密等义务”。第六十条还规定:“当事人应当按照约定全面履行自己的义务。当事人应当遵循诚实信用原则,根据合同的性质、目的和交易习惯履行通知、协助、保密等义务”。最高人民法院《关于贯彻执行<中华人民共和国民法通则>若干问题的意见（试行）》第140条：“以书面、口头形式宣场他人的隐私，或者捏造事实公然丑化他人人格，以及用侮辱、诽谤等方式损害他人名誉，造成一定影响的，应当认定为侵害公民名誉权的行为”。《侵权责任法》第三十六条：“网络用户、网络服务提供者利用网络侵害他人民事权益的，应当承担侵权责任……”。《中华人民共和国刑法》第二百五十三条之一：“国家机关或者金融、电信、交通、教育、医疗等单位的工作人员，违反国家规定，将本单位在履行职责或者提供服务过程中获得的公民个人信息，出售或者非法提供给他人，情节严重的，处三年以下有期徒刑或者拘役，并处或者单处罚金。窃取或者以其他方法非法获取上述信息，情节严重的，依照前款的规定处罚。单位犯前两款罪的，对单位判处罚金，并对其直接负责的主管人员和其他直接责任人员，依照各该款的规定处罚”，等等。这些法律规定对于保护公民的隐私权具有重要意义。

　　在技术方面，隐私保护的研究领域主要关注基于数据失真的技术、基于数据加密的技术和基于限制发布的技术。

　　基于数据失真的技术通过添加噪音等方法，使敏感数据失真但同时保持某些数据或数据属性不变，仍然可以保持某些统计方面的性质。包括随机化，即对原始数据加入随机噪声，然后发布扰动后数据的方法；第二种是阻塞与凝聚，阻塞是指不发布某些特定数据的方法，凝聚是指原始数据记录分组存储统计信息的方法；第三类是差分隐私保护。

　　基于数据加密的技术采用加密技术在数据挖掘过程隐藏敏感数据的方法，包括安全多方计算 SMC，即使两个或多个站点通过某种协议完成计算后，每一方都只知道自己的输入数据和所有数据计算后的最终结果；还包括分布式匿名化，即保证站点数据隐私、收集足够的信息实现利用率尽量大的数据匿名

　　基于限制发布的技术有选择地发布原始数据、不发布或者发布精度较低的敏感数据，实现隐私保护。当前这类技术的研究集中于“数据匿名化”，保证对敏感数据及隐私的披露风险在可容忍范围内。包括K-anonymity、L-diversity、T-closeness。

　　最早被广泛认同的隐私保护模型是k-匿名，由Samarati和Sweeney在2002年提出，作者正是马萨诸塞州医疗数据隐私泄露事件的攻击者。为应对去匿名化攻击，k-匿名要求发布的数据中每一条记录都要与其他至少k-1条记录不可区分（称为一个等价类）。当攻击者获得k-匿名处理后的数据时，将至少得到k个不同人的记录，进而无法做出准确的判断。参数k表示隐私保护的强度，k值越大，隐私保护的强度越强，但丢失的信息更多，数据的可用性越低。

　　然而，美国康奈尔大学的Machanavajjhala等人在2006年发现了k-匿名的缺陷，即没有对敏感属性做任何约束，攻击者可以利用背景知识攻击、再识别攻击和一致性攻击等方法来确认敏感数据与个人的关系，导致隐私泄露。例如，攻击者获得的k-匿名化的数据，如果被攻击者所在的等价类中都是艾滋病病人，那么攻击者很容易做出被攻击者肯定患有艾滋病的判断（上述就是一致性攻击的原理）。为了防止一致性攻击，新的隐私保护模型l-diversity改进了k-匿名，保证任意一个等价类中的敏感属性都至少有l个不同的值。t-Closeness在l-diversity 的基础上，要求所有等价类中敏感属性的分布尽量接近该属性的全局分布。(a, k)-匿名原则，则在k-匿名的基础上，进一步保证每一个等价类中与任意一个敏感属性值相关记录的百分比不高于a。

　　然而，上述隐私保护模型依然有缺陷，需要不断的被改进，但同时又有新的攻击方法出现，使得基于k-匿名的传统隐私保护模型陷入这样一个无休止的循环中。从根本上来说，传统隐私保护模型的缺陷在于对攻击者的背景知识和攻击模型都给出了过多的假设。但这些假设在现实中往往并不完全成立，因此攻击总是能够找到各种各样的攻击方法来进行攻击。直到差分隐私的出现，这一问题才得到较好的解决。

　　差分隐私（differential privacy, DP）是微软研究院的Dwork在2006年提出的一种新的隐私保护模型。该方法能够解决传统隐私保护模型的两大缺陷：（1）定义了一个相当严格的攻击模型，不关心攻击者拥有多少背景知识，即使攻击者已掌握除某一条记录之外的所有记录信息（即最大背景知识假设），该记录的隐私也无法被披露；（2）对隐私保护水平给出了严谨的定义和量化评估方法。正是由于差分隐私的诸多优势，使其一出现便迅速取代传统隐私保护模型，成为当前隐私研究的热点，并引起了理论计算机科学、数据库、数据挖掘和机器学习等多个领域的关注。

　　在管理领域，我国各部门也在制定一些强制管理措施保护隐私信息。

　　总之，隐私保护在大数据时代是不可回避的，需要拿出切实可行的法律、技术、管理措施，并严格遵照执行。同时，广大民众也应该养成保护个人隐私信息的意识和习惯，用技术和法律的手段捍卫自己的合法权益。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

大数据数据挖掘机器学习推荐系统字段数据分析

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇浅谈P2P评级背后的“大数据”_数据分析师考试

下一篇大数据价值蓝海，商业场所运营如何把握机会呢

大数据环境下的隐私保护技术_数据分析师培训

CDA考试动态

CDA报考指南

热门栏目

最新资讯

保姆级教程！一文读懂数据分析师的职业发展路径 ...

【干货】用DeepSeek三步骤搞定Excel数据清洗，效率 ...

被统计公式劝退？这门极简课程让你14天学会用Python ...

【干货】如何用RFM模型精准识别高价值客户？ ...

CDA数据分析师就业班3月29日开班，仅剩1个名额 ...

【案例】网飞Netflix流量漏斗分析案例 ...

tensorflow_datasets 如何load本地的数据集？ ...

《CDA二级教材》试读版上线CDA网校，助你轻松拿下二 ...

【干货】3步带你画出用户DNA，精准营销更进一步 ...

什么是随机森林，它的优缺点是什么？：面试标准答案 ...

【干货】电商营收暴跌40%，如何排查？ ...

【干货】如何通过精细化运营提升 DAU 指标？ ...

【干货】AB test 在业务中的落地应用

自上而下的指标体系构建全攻略

解锁数据分析师高薪密码，CDA 脱产就业班助你逆袭！ ...

如何在mysql语句中查询一个表,但不包含某字段? ...

深度解析用户画像：数据运营的核心力量 ...

2025年AI智能体元年，数据分析师会被替代吗？ ...

【案例】业务数据分析方法之多维度拆解 ...

【干货】我手里有好几个产品，该怎么分配资源？-波 ...