大数据时代:隐私保护的技术支持及法规保障(2)_数据分析师考试
在大数据技术方面,隐私保护的研究领域主要关注基于数据失真的技术、基于数据加密的技术和基于限制发布的技术。
基于数据失真的技术通过添加噪音等方法,使敏感数据失真但同时保持某些数据或数据属性不变,仍然可以保持某些统计方面的性质。包括随机化,即对原始数据加入随机噪声,然后发布扰动后数据的方法;第二种是阻塞与凝聚,阻塞是指不发布某些特定数据的方法,凝聚是指原始数据记录分组存储统计信息的方法;第三类是差分隐私保护。
基于数据加密的技术采用加密技术在数据挖掘过程隐藏敏感数据的方法,包括安全多方计算 SMC,即使两个或多个站点通过某种协议完成计算后,每一方都只知道自己的输入数据和所有数据计算后的最终结果;还包括分布式匿名化,即保证站点数据隐私、收集足够的信息实现利用率尽量大的数据匿名。
基于限制发布的技术有选择地发布原始数据、不发布或者发布精度较低的敏感数据,实现隐私保护。当前这类技术的研究集中于“数据匿名化”,保证对敏感数据及隐私的披露风险在可容忍范围内。包括K-anonymity、L-diversity、T-closeness。
最早被广泛认同的隐私保护模型是k-匿名,由Samarati和Sweeney在2002年提出,作者正是马萨诸塞州医疗数据隐私泄露事件的攻击者。为应对去匿名化攻击,k-匿名要求发布的数据中每一条记录都要与其他至少k-1条记录不可区分(称为一个等价类)。当攻击者获得k-匿名处理后的数据时,将至少得到k个不同人的记录,进而无法做出准确的判断。参数k表示隐私保护的强度,k值越大,隐私保护的强度越强,但丢失的信息更多,数据的可用性越低。
然而,美国康奈尔大学的Machanavajjhala等人在2006年发现了k-匿名的缺陷,即没有对敏感属性做任何约束,攻击者可以利用背景知识攻击、再识别攻击和一致性攻击等方法来确认敏感数据与个人的关系,导致隐私泄露。例如,攻击者获得的k-匿名化的数据,如果被攻击者所在的等价类中都是艾滋病病人,那么攻击者很容易做出被攻击者肯定患有艾滋病的判断(上述就是一致性攻击的原理)。为了防止一致性攻击,新的隐私保护模型l-diversity改进了k-匿名,保证任意一个等价类中的敏感属性都至少有l个不同的值。t-Closeness在l-diversity 的基础上,要求所有等价类中敏感属性的分布尽量接近该属性的全局分布。(a, k)-匿名原则,则在k-匿名的基础上,进一步保证每一个等价类中与任意一个敏感属性值相关记录的百分比不高于a。
然而,上述隐私保护模型依然有缺陷,需要不断的被改进,但同时又有新的攻击方法出现,使得基于k-匿名的传统隐私保护模型陷入这样一个无休止的循环中。从根本上来说,传统隐私保护模型的缺陷在于对攻击者的背景知识和攻击模型都给出了过多的假设。但这些假设在现实中往往并不完全成立,因此攻击总是能够找到各种各样的攻击方法来进行攻击。直到差分隐私的出现,这一问题才得到较好的解决。
差分隐私(differential privacy, DP)是微软研究院的Dwork在2006年提出的一种新的隐私保护模型。该方法能够解决传统隐私保护模型的两大缺陷:(1)定义了一个相当严格的攻击模型,不关心攻击者拥有多少背景知识,即使攻击者已掌握除某一条记录之外的所有记录信息(即最大背景知识假设),该记录的隐私也无法被披露;(2)对隐私保护水平给出了严谨的定义和量化评估方法。正是由于差分隐私的诸多优势,使其一出现便迅速取代传统隐私保护模型,成为当前隐私研究的热点,并引起了理论计算机科学、数据库、数据挖掘和机器学习等多个领域的关注。
在管理领域,我国各部门也在制定一些强制管理措施保护隐私信息。
总之,隐私保护在大数据时代是不可回避的,需要拿出切实可行的法律、技术、管理措施,并严格遵照执行。同时,广大民众也应该养成保护个人隐私信息的意识和习惯,用技术和法律的手段捍卫自己的合法权益。
数据分析咨询请扫描二维码
《Python数据分析极简入门》 第2节 6 Pandas合并连接 在pandas中,有多种方法可以合并和拼接数据。常见的方法包括append()、conc ...
2024-11-24《Python数据分析极简入门》 第2节 5 Pandas数学计算 importpandasaspdd=np.array([[81,&n ...
2024-11-23数据分析涉及多个方面的学习,包括理论知识和实践技能。以下是数据分析需要学习的主要方面: 基础知识: 数据分析的基本概念 ...
2024-11-22数据分析适合在多个单位工作,包括但不限于以下领域: 金融行业:金融行业对数据分析人才的需求非常大,数据分析师可以从事经 ...
2024-11-22数据分析是一种涉及从大量数据中提取有用信息和洞察力的过程。其工作内容主要包括以下几个方面: 数据收集与整理:数据分析师 ...
2024-11-22数据分析师需要掌握多种技能,以确保能够有效地处理和分析数据,并为业务决策提供支持。以下是数据分析师需要掌握的主要技能: ...
2024-11-22数据开发和数据分析是两个密切相关但又有所区别的领域。以下是它们的主要区别: 定义和目标: 数据开发:数据开发涉及数据的 ...
2024-11-22数据架构师是负责设计和管理企业数据架构的关键角色,其职责涵盖了多个方面,包括数据治理、数据模型设计、数据仓库构建、数据安 ...
2024-11-22数据分析师需要具备一系列技能,以确保能够有效地处理、分析和解释数据,从而支持决策制定。以下是数据分析师所需的关键技能: ...
2024-11-22数据分析师需要具备一系列技能,以确保能够有效地处理、分析和解释数据,从而支持决策制定。以下是数据分析师所需的关键技能: ...
2024-11-22数据分析师需要具备一系列的技能和能力,以确保能够有效地处理、分析和解释数据,从而支持业务决策。以下是数据分析师所需的主要 ...
2024-11-22需求持续增长 - 未来数据分析师需求将持续上升,企业对数据驱动决策的依赖加深。 - 预测到2025年,中国将需要高达220万的数据人 ...
2024-11-22《Python数据分析极简入门》 第2节 4 Pandas条件查询 在pandas中,可以使用条件筛选来选择满足特定条件的数据 importpanda ...
2024-11-22数据分析师的工作内容涉及多个方面,主要包括数据的收集、整理、分析和可视化,以支持商业决策和问题解决。以下是数据分析师的一 ...
2024-11-21数据分析师必须掌握的技能可以从多个方面进行归纳和总结。以下是数据分析师需要具备的主要技能: 统计学基础:数据分析师需要 ...
2024-11-21数据分析入门的难易程度因人而异,总体来看,入门并不算特别困难,但需要一定的学习和实践积累。 入门难度:数据分析入门相对 ...
2024-11-21数据分析是一项通过收集、整理和解释数据来发现有用信息的过程,它在现代社会中具有广泛的应用和重要性。数据分析能够帮助人们更 ...
2024-11-21数据分析行业正在迅速发展,随着技术的不断进步和数据量的爆炸式增长,企业对数据分析人才的需求也与日俱增。本文将探讨数据分析 ...
2024-11-21数据分析的常用方法包括多种技术,每种方法都有其特定的应用场景和优势。以下是几种常见的数据分析方法: 对比分析法:通过比 ...
2024-11-21企业数字化转型是指企业利用数字技术对其业务进行改造和升级,以实现提高效率、降低成本、创新业务模式等目标的过程。这一过程不 ...
2024-11-21