机器学习、数据、隐私和更大的善
机器学习能够对健康进行跨类预测。社交媒体上,新妈妈们的行为和语言使用能够被用来预测是否产后抑郁。
研究人员创造了一些术语,例如数字疾病检测和信息监测 ,来定义这类利用不同的数字信息流进行公共卫生和政策信息通报的新科学,例如流行病的早期识别,疾病的传染性和流动性建模,个人疾病风险分类等。这种新形式的健康研究也会扩展那些由传统健康记录和人体试验得出的结论。比如,药物不良反应的检测可以结合美国食品和药物管理局的不良反应报告系统及匿名搜索日志加以改善。搜索日志可以作为一个大规模的传感系统,用来监测药物安全——药物警戒。
信息监测研究通常是指对公开披露或私有匿名数据的大规模综合分析,就人群中公共健康问题得出结论和见解。然而,一些方法和模型可以针对特定个体加以推测,从而采取一些举措来改善个体或公共健康状况,例如警报或者进行数字干预(digital nudging)。
尽管数字干预显示出良好前景,但是,英国最近发生的一次事件,让人们注意到它也会对隐私造成困扰。Good Samaritan是Twitter上一款预防自杀的应用,通过监测用户在Twitter上的用语,这款应用能够预测该用户患有精神疾病的风险并通知该用户的关注者,以便他们能介入以避免可能发生的自杀。但是,这项技术令舆论哗然,也引发监管机构的担忧,随后被关闭。批评人士担心,这款应用会鼓励在线骚扰者和恃强凌弱者将矛头指向这些脆弱个体,他们的请愿书指出,这款应用收集、处理并分享敏感信息,侵犯了用户隐私,并收集到了1200个志愿者。虽然开发者预防自杀的初衷值得嘉奖,但是,此项非盈利之举却因它将试图拯救的那些人的隐私和精神健康视为儿戏而遭到训斥。
机器学习可以促进信息环境与社会环境之间的交流,借助远超医疗环境的非医疗数据就健康状况或者倾向做出跨类推测(category-jumping)。这对隐私的影响是深远的。跨类推测可能会揭露一个人特意向别人隐瞒的问题或状况。为了防止出现这些违背意愿的现象,美国对健康护理隐私严加监管。但是,虽然从健康理疗和支付中获得的健康状况信息能够以一种尊重患者隐私的方式加以保护,但是,机器学习和推测可以绕开许多现存的保护机制。
即使不是跨类推测,机器学习也能从自我揭露、看似良性的数据以及易于观察的行为中,进行强大而折衷的推论( powerful and compromising inferences)。这些结论可能会与隐私法的根本目的相悖——个人有权决定谁知道以及知道自己哪些隐私。机器学习和预测会让人们越来越难判断:根据自己或明或暗共享过的信息,他人有权获知自己的哪些隐私。这些计算机收集健康状况的信息渠道与其他技术手段联手之后,会让既有健康隐私的保护机制出现很大漏洞。特别是,面对大量可以用来再次识别个体的各种辅助性数据,我们很难将公开分享过的数据组去识别化(deidentify)。
现有的美国隐私制度将个人健康状态隐私保护与被先验确定为健康信息的特定文本或特定信息类型关联起来,机器学习的威力让这种规定的根本局限性无所遁形。现有美国健康隐私规则和隐私法律都是基于这一假设:孤立环境中的数据语义相对固定并且可知。但是,机器学习却被用来从数据、跨数据中来预测新的数据语义,通常不受美国隐私法约束。例如,使用Twitter上的公开推文来预测产后抑郁症风险,这并不违反现有的隐私法。由于文章是公开共享的,这样做可能并不会让人吃惊,也似乎不成问题,但是,这种预测行为也会导致令人不安的后果。
当前的隐私法通常采用双重责任(double duty)。作为基本原则,法律会限制有权访问个人信息的主体。这也间接限制了信息能够影响决策的范围,因此也进一步限制了信息引发歧视的机会。出于对隐私的高度敏感以及健康方面歧视的关注,还另立法律,对健康医疗数据文本之外的健康信息使用紧行规制。美国法律明确限制了不当使用健康信息的行为。例如, 决定就业、信贷或住房时,法律通常禁止信用报告机构提供医疗信息。《美国残疾人法案》(ADA)禁止身体或精神残疾歧视,甚至不允许人们这么认为个体备受残疾折磨。如果机器学习被用来推断某人患有身体或精神障碍,那么,即使推断是错误的,雇主据此决定聘用对方的行为也违反了法律。
但是,《美国残疾人法》并不禁止歧视残疾倾向(predispositions)。机器学习也能发现那些残疾倾向。理论上,《禁止基因信息歧视法案》(GINA)应该通过保护基因上具有残疾倾向的人来填补这一空白。但是,机器学习又让这种保护变得困难。尽管GINA禁止以基因测试或某种疾病的家族遗传史等信息为基础的歧视,但是,机器学习能从其他类型数据中发现这些残疾倾向,GINA并未限制人们利用这些信息进行歧视(即使它还是根植于基因问题)。换句话说,机器学习能从非基因信息(包括遗传倾向引发的健康变化)中预测未来的健康状况,规避现有法律。
正如机器学习会暴露隐私一样,它也为社会分类——对人分门别类,不同类别不同待遇——提供条件,无论这种处理的初衷如何(善或恶、好或坏)。为了将个体纳入公共健康计划和干预机制,对其进行分门别类的方法也能轻易地被用于邪恶的目的,例如,通过歧视来保护组织的利益。
美国和其他国家的决策者们刚刚开始着手梳理机器学习预测对信守隐私、公平带来的挑战。白宫公布了一份报告,讨论了大规模数据分析可能导致歧视,虽然没有特别关注健康信息,但是,报告和美国联邦贸易委员会(FTC)都建议采取新举措来保护隐私、整治恶意使用信息并增加透明度。
FTC是监管商业活动中不公平、欺诈性交易的关键部门,包括那些涉及隐私与个人信息安全的商业活动。试行的隐私政策鼓励公司将技术与政策机制结合来,防止再次识别(reidentification)。试行规定力图确保数据「不能进行合理识别」,也要求上市公司(public company)承诺不会再次识别经过反识别处理的数据。试行也适用于数据下游使用者。这一政策方针有望适用于机器学习以及以数据为中心的分析领域中来。通过鼓励公司减少数据池和数据分享对个人隐私造成的风险,使对大量数据组的学习和数据分享成为可能。
FTC的规定部分取材于机构近期采取的一些行动,行动焦点正是我们谓之「文本跨越(context-jumping)」的预测行为。有一个颇受关注的案例,Netflix公开一批数据组支持竞争以改善公司的推荐算法。当公司以外的研究人员用辅助数据重新识别、推测来自Netflix数据组的个体敏感特征时,FTC与Netflix合作,对将来公开预测结果进行了限制——FTC上述限制规定正是源于此。遵循类似脉络,FTC反对改变Facebook的默认规定:可以根据已经公开的个体隶属组别中的敏感信息,诸如政治观点和性别取向,进行预测。
除此之外,FTC也努力确保个体能够控制在线跟踪以及移动网络环境。部分是因为人们可以从巨大的数据集合中进行比较隐秘的推测,给用户带来风险,比如,市场活动中,用户会被分门别类地予以特殊对待。在某相关规定中,FTC建议国会要求数据掮客(data brokers)——那些搜集用户个人信息予以出售或分享的公司——向客户清楚说明他们搜集的数据信息并如实告知客户,公司从这些数据中得到了一些预测。这里,FTC再次表明,它的关注点不仅仅是原始数据,还包括基于这些数据作出的预测。
奥巴马政府的大数据计划也考虑到机器学习给隐私造成的威胁以及机器推测在市场活动中带来的潜在威胁,计划总结道,我们需要更新隐私政策,提高消费者保护和民主权利机构的技术专业性以描述出大数据引发的新奇的歧视议题,并为个体提供隐私保护工具,让公民可以控制、管理个人信息管理,增加公司使用和交易数据的透明度。政府也关心机器学习在政策与国家安全方面的使用情况。白宫报告要求提高专业技术,帮助民主权利和消费者保护机构识别、调查以及消弭会对受保护阶层带来歧视效应的大数据分析使用。
请注意,政府报告和法律规定清楚强调了政策规范关注的是数据使用,而不是数据收集。尽管我们也需要工具来帮助用户控制自身数据收集的时间和方式,但是,政府的建议是让个体有权参与到如何使用与公开搜集到的数据的决策过程中来。总统科技顾问委员会(PCAST)出具的一份独立报告的结论是,技术保护这个方向更加富有成效。两份报告均建议,基于数据使用的保护能更好地描述出潜在数据意义——使用机器学习对数据进行预测——也能适应数据丰富规模以及将来的关联环境。 政府呼吁各方通力合作以确保对健康数据文本的规制使以下期待成为可能:享受机器学习和预测的好处的同时降低其可能招致的风险。这种基于数据使用的保护方法也经常得到工业领域的支持,该领域倾向于将数据视为一种自然资源,无论是出于商业目的还是公共利益,都要对之进行开采,抵制限制数据搜集的举措。
尽管当前陷入僵局的国会不太可能,也不会完全依从这些建议,但是,采用它们会增强数据搜集、使用以及相应后果的透明度。连同努力识别、限制不公平或歧视性数据的使用和推测等建议,它们都是颇为有用的举措。这些建议也与欧盟目前有关数据处理透明度与公平性的隐私法律,特别是全自动化决策可能给个体造成的风险方面,步调一致。
目前欧盟的法律要求实体为个人提供获得决策数据的途径以及决策标准的信息【参看第21款第12条和第15条】。尽管目前有欧盟统一指令约束,但是,具体规定仍是各国法律的事情。当个体要求获取数据和进行加工时,他们能够获取的权限大小会随着各国对「全自动化 」过程施加限制的不同而所有不同。欧盟想要采用一项高于本地法律的数据隐私规定,实行单一国家标准。尽管现有草案包含平行条款,但是,最终版本以及如何进行最终解释都尚不清楚(27)。
理论上,欧盟提出了一项新要求来公开数据的处理逻辑,这可以得到广泛适用,同时也预示着将有公开途径获得数据分析及算法。欧盟将基于当前欧盟的统一指令,就获取数据和处理逻辑的程度补充一些细节,在这之前的过渡期,今年夏天将有望出台一项决议。
对数据拥有者来说,提高数据处理的透明度至关重要又颇具挑战。尽管这一目标会促进我们加深对运作方式或机器学习和推理方法的可能输出结果的实际理解,但是,算法和决策标准的工作流和机制或许难以进行描绘和解释。例如,流行的卷积神经网络学习程序能够自动催发丰富的、多层的表征,但对于这些表征,可能开发者自己都无法清晰理解。尽管可以提供对步骤和表征的高级描述,但是,即便是一个能够取得源码的娴熟程序员, 也无法对这一系统的准确运行进行描述,无法对一组既定输入值的输出结果进行准确预测。
数据的意义已经成为了一个不断移动的目标。数据集可以通过去定义化被轻易的组合成重新定义的数据集,感知知识可从常规和杂乱分享的良性数据中推断出来。这对目前美国利用合法手段进行隐私保护造成了困难,他们的保护手段往往是基于数据的可识别性和明确含义对其进行管理。
基于应用的解决方案在一定程度上仅聚焦于有限的数据收集,这是不够的。因为从某种程度上来说,这种做法预设了数据是可被基于某种原则进行收集的纯粹的物品,无论何时何地。虽然我们尚未准备好废弃掉数据收集的限制,但我们对此表示同意——基于应用的管理条例是未来法律蓝图的重要部分,尽管实施起来将面临挑战,但它将有助于促进隐私、平等和公共物品的保护。在提高透明度的同时还要平衡随之而来的各种限制,基于应用的解决方案将需要格外强调个人数据的获取、准确性和修正权利。
尽管关于个人健康信息的管理条例的演化还不完整,但它却提供给了我们一个有价值的图景,使我们能够对今天所面临的机遇和挑战进行思考,同时也为潜在解决方案提出了框架思路。在医疗健康领域,隐私条例中总会包含不歧视条款,同时也伴随着支持研究的特殊条款。如今,隐私条例与集体管理模型联系在了一起,后者的设计初衷是鼓励将支持研究的生物样本库数据进行汇总,同时保护集体隐私。
尽管还有些较为现实的挑战,我们仍希望政策制定者和公众能够就数据、机器学习的能力进行开诚布公的讨论,这将为接下来的程序和政策提供富有洞察力的设计思路,我们一方面需要保护隐私和确保公平,另一方面也需要享受(基于个人数据的)科学研究成果给个人和公众带来的好处,程序和政策的设计有利于在这两者之间取得平衡。我们对隐私和公正的追求是永恒的,我们的政策必须适应这种进步,同时也要支持深化我们认识的新技术。
数据分析咨询请扫描二维码
在准备数据分析师面试时,掌握高频考题及其解答是应对面试的关键。为了帮助大家轻松上岸,以下是10个高频考题及其详细解析,外加 ...
2024-12-20互联网数据分析师是一个热门且综合性的职业,他们通过数据挖掘和分析,为企业的业务决策和运营优化提供强有力的支持。尤其在如今 ...
2024-12-20在现代商业环境中,数据分析师是不可或缺的角色。他们的工作不仅仅是对数据进行深入分析,更是协助企业从复杂的数据信息中提炼出 ...
2024-12-20随着大数据时代的到来,数据驱动的决策方式开始受到越来越多企业的青睐。近年来,数据分析在人力资源管理中正在扮演着至关重要的 ...
2024-12-20在数据分析的世界里,表面上的技术操作只是“入门票”,而真正的高手则需要打破一些“看不见的墙”。这些“隐形天花板”限制了数 ...
2024-12-19在数据分析领域,尽管行业前景广阔、岗位需求旺盛,但实际的工作难度却远超很多人的想象。很多新手初入数据分析岗位时,常常被各 ...
2024-12-19入门数据分析,许多人都会感到“难”,但这“难”究竟难在哪儿?对于新手而言,往往不是技术不行,而是思维方式、业务理解和实践 ...
2024-12-19在如今的行业动荡背景下,数据分析师的职业前景虽然面临一些挑战,但也充满了许多新的机会。随着技术的不断发展和多领域需求的提 ...
2024-12-19在信息爆炸的时代,数据分析师如同探险家,在浩瀚的数据海洋中寻觅有价值的宝藏。这不仅需要技术上的过硬实力,还需要一种艺术家 ...
2024-12-19在当今信息化社会,大数据已成为各行各业不可或缺的宝贵资源。大数据专业应运而生,旨在培养具备扎实理论基础和实践能力,能够应 ...
2024-12-19阿里P8、P9失业都找不到工作?是我们孤陋寡闻还是世界真的已经“癫”成这样了? 案例一:本硕都是 985,所学的专业也是当红专业 ...
2024-12-19CDA持证人Louis CDA持证人基本情况 我大学是在一个二线城市的一所普通二本院校读的,专业是旅游管理,非计算机非统计学。毕业之 ...
2024-12-18最近,知乎上有个很火的话题:“一个人为何会陷入社会底层”? 有人说,这个世界上只有一个分水岭,就是“羊水”;还有人说,一 ...
2024-12-18在这个数据驱动的时代,数据分析师的技能需求快速增长。掌握适当的编程语言不仅能增强分析能力,还能帮助分析师从海量数据中提取 ...
2024-12-17在当今信息爆炸的时代,数据分析已经成为许多行业中不可或缺的一部分。想要在这个领域脱颖而出,除了热情和毅力外,你还需要掌握 ...
2024-12-17数据分析,是一项通过科学方法处理数据以获取洞察并支持决策的艺术。无论是在商业环境中提升业绩,还是在科研领域推动创新,数据 ...
2024-12-17在数据分析领域,图表是我们表达数据故事的重要工具。它们不仅让数据变得更加直观,也帮助我们更好地理解数据中的趋势和模式。相 ...
2024-12-16在当今社会,我们身处着一个飞速发展、变化迅猛的时代。不同行业在科技进步、市场需求和政策支持的推动下蓬勃发展,呈现出令人瞩 ...
2024-12-16在现代商业世界中,数据分析师扮演着至关重要的角色。他们通过解析海量数据,为企业战略决策提供有力支持。要有效完成这项任务, ...
2024-12-16在当今数据爆炸的时代,数据分析师是组织中不可或缺的导航者。他们通过从大量数据中提取可操作的洞察力,帮助企业在竞争激烈的市 ...
2024-12-16