论“万能”的大数据及由此带来的诸多问题

大数据”——如果你反感这一用语的话，你并不是唯一有这种想法的人，但我认为我们如今已经接受了它——最激动人心的一个前景是，规模日益庞大的数据搜集活动，借助于现代化的数据处理和模式识别算法，将让我们对周围这个世界具有更为全面的认识，尤其是对人类行为。不幸的是，这同样也是大数据最令人担心的地方。

目前，大数据和隐私似乎是一对不共戴天的死敌。个人数据可以降低汽车保险支出，但代价是你的个人隐私。它可以提供至关重要的公共卫生数据——通过获取敏感且私密的个人健康信息。它可以帮助警察追踪犯罪分子——通过一种在实践中被认为遭到滥用的技术，创建面部识别“圆形监狱”（panopticon）。它可以根据你发布到网上的所有照片，对你的个人特征做出一个详细描述——即便你根本不希望这一切发生。

这些并不是仅仅是纯粹理论层面的担忧。据《纽约时报》报道：

由于政府机构监管不力，数十年来数据挖掘公司、数据代理公司、数据中间商数不断危害公民隐私，如今他们又将隐秘的个人数据分类带到一个全新的水平。他们已经制作了性侵受害者名单以及性病患者的名单。此外，还有阿尔茨海默氏病、痴呆症及艾滋病患者的名单，阳痿和抑郁症患者名单。

与此同时，还有“冲动型买家”名单；“易受骗者”名单：即容易上当受骗的消费者，研究发现这个人群易于遭受“基于弱点的营销宣传”的影响。

可以想见，如果这种名单是来自于那些无意中显露出他们易受数据披露影响的人，这会带来什么样的严重后果。例如，通过算法可解读的Facebook帖子，再对比发帖者其他所有信息，可以作为他们本不想披露的秘密的证据。

这基本上存在两个问题。一是数据的匿名化和安全性没有任何一个标准。有些搜集和发布数据的机构会对数据进行匿名化处理，确保它们的安全，但这些举动让人感觉更像是权宜之计，“经过匿名化处理”的数据极少。例如，今年早些时候纽约出租车数据就未经过妥善的匿名化处理。

还有一个更深层、也更为重要的问题：人们是否有权知道他们的数据何时被别人搜集？一旦发生这种状况，是个人还是搜集方拥有这些数据？下面，我就来介绍一下麻省理工学院教授阿莱克斯·彭特兰（Alex Pentland）及其提出的“数据新政”（New Deal on Data）：

从整体上讲，我们现在拥有的数据可以帮助减少环境污染，帮助创建透明政府，帮助应对流行疾病，当然也有助于提高工人的工作效率，让顾客获得更好的服务。但很显然，有人或有公司可以滥用数据…“新政”可以让人们知道自己有哪些数据正在被搜集，进而可以选择加入或退出。想象一下，如果你的仪表板可以显示你的居室掌握了哪些信息，以及分享了哪些信息，你可以将它关闭或打开…透明是关键。正在搜集的有关你的数据能形成对你生活的相当全面的认识，我认为一些公司并未意识到“抓取所有数据”战略的成本非常高。

然而，从实际情况来看，这种“新政”预示着创新和监管之间漫长而令人悲伤的战斗故事将掀开一个新的篇章。我并不反对后者（即监管），但相对于前者（即创新）的快速演变，我只是对它的表现经常感到失望罢了。毋庸置疑，数据搜集能力的指数级增长可以给我们带来巨大的好处，但同样不容置疑的是，所有人都极为担心科技对隐私发起的那场不可阻挡（几乎出于偶然）的战争，我们正面临着一场灾难，或者说距离大声疾呼更严格的监管只有一步之遥。

若想解决这个问题，科技行业理应从一开始就走到最前面，定义和执行对数据进行匿名化处理的技术标准。（如果这真的成为一个新的子行业，我丝毫不会感到吃惊。）但一个更好的结果是，大公司在一个性质相当于“新政”的自愿协议上达成一致，希望可以预先阻止民众呼吁加强监管的行动，而且宜早不宜迟。我认为科技行业并未充分意识到数据隐私和缺乏隐私对公众的危害。如果我们不认真对待这件事，那无异于是在玩火。CDA数据分析师培训官网

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

大数据仪表板特征数据挖掘数据分析

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇随机森林 vs XGBoost vs 决策树：算法选择中的

下一篇图论在大数据分析中的作用！

论“万能”的大数据及由此带来的诸多问题

论“万能”的大数据及由此带来的诸多问题

CDA考试动态

CDA报考指南

热门栏目

最新资讯

【CDA持证人干货分享】13年国企财务：如何借助DeepS ...

【CDA持证人案例分享】Excel动态报表设计：基于业务 ...

【CDA干货】字节大佬：如何通过动态分级快速提升转 ...

Windows 系统和 MacOS 系统下的 Anaconda 安装教程 ...

数据运营的工作内容、技能要求及发展前景 ...

【干货】字节大佬：教培行业销售运营全景作战地图【 ...

四大一线城市约50%人口租房，数据分析能挖出哪些 “ ...

Python 实战案例 —RFM 客户价值分析模型 ...

【案例】奥利奥坚果新品与蒙牛“数字牧场”的成功经 ...

美关税政策下的全球金融市场动荡：深度数据分析与洞 ...

【重磅】苹果捐赠3000万给浙大这专业，透露未来就业 ...

非专业，怎么才能证明自己的数据分析能力？ ...

保姆级教程！一文读懂数据分析师的职业发展路径 ...

【干货】用DeepSeek三步骤搞定Excel数据清洗，效率 ...

被统计公式劝退？这门极简课程让你14天学会用Python ...

【干货】如何用RFM模型精准识别高价值客户？ ...

CDA数据分析师就业班3月29日开班，仅剩1个名额 ...

【案例】网飞Netflix流量漏斗分析案例 ...

tensorflow_datasets 如何load本地的数据集？ ...

《CDA二级教材》试读版上线CDA网校，助你轻松拿下二 ...