谁拥有你的数据？谁又动了你的数据-CDA数据分析师官网

谁拥有你的数据？谁又动了你的数据

2017-07-19

谁拥有你的数据？谁又动了你的数据

谁能拥有你的数据?

很多时候我们不会去阅读服务协议，却习惯于签署、通过它们。但现在，这越来越成为一个民生问题了。像 UPS 和亚马逊这样的物流公司，能通过他们先进的监控网络，对员工进行微观管理。而国际零售商和快餐连锁店，则可以利用复杂的数据反馈效率算法生成雇员的时间表。孟山都的“智能农场”技术从大批独立的农民那里提取出有价值的内部数据，而优步司机甚至可以通过建立规模空前的细节数据库，来帮助开发他们的自动驾驶替代品。

长期以来，资本家一直从他们的工人那里收集有利可图的数据而不付任何报酬，但直到最近，网络智能技术的发展——兴趣网络——将数据监控延伸到工作场所之外，让我们的个人生活成为了无酬劳的价值创造领域。数字零售商根据我们的个人情况提供针对性的推荐;流媒体揣摩我们的品味以预测我们将欣赏什么内容;而健身应用追踪我们的卡路里摄入和行走步数以让我们做出“更健康的决定”。很快，虚拟现实的头戴设备甚至可以追踪细微的眼球运动和无意识的视网膜活动。

这些技术通常将我们的个人信息反馈给私人公司，在那里，我们的购物偏好、兴趣和身体机能数据，都有可能为它们巨大的利润。如果没有我们的个人数据输入，大数据是不可能存在的，而数据分析市场更不会在没有大规模合作的情况下发展为 1300 亿美元的产业。被动数据收集越来越多地将我们的闲暇时间转化为工作时间。

当 1996 年谷歌开始实施网页排名算法时，拉里·佩奇(Larry Page)和谢尔盖·布林(Sergey Brin)无意中开启了从源头改变信息传输渠道的方式。斯坦福的博士学生最终开发出了一种算法，将他们搜索引擎外包给他们的客户，即享受免费服务的用户，从而通过链接密度和用户参与程度的统计数据，来对网页网址不断扩充的缓存内容进行排序。用户只要对网页进行搜索就能完善算法，因此也吸引了更多的消费者来改进产品，从而为搜索引擎提供更大的锻炼平台。

这是新古典主义经济学家“良性循环”的一个理想模式，这个过程是消费者驱动大数据的第一个明确案例。它是创新的，因为它将创造有用数据的过程，从大规模的制造转变成了大规模的消费，最终使得搜索引擎的竞争对手，例如 AltaVista、HotbotheWebCrawler，以及拥挤的门户网站如 MSN、AOL 和 Lycos 变为它身后默默无闻的隐藏劳动力。

很少有人知道，在 2001 年年末，谷歌正静悄悄地考虑对这个“良性循环”进行调整，以测试一个投票系统，从而允许用户公开透明地影响搜索排名的结果。SiteLab 的联合创始人 Dana Todd 将更具有参与性的途径称为“用户意识”，但这个公开透明的特性从未引发市场热潮。正如谷歌发现的那样，最佳的海量数据采集方式——是隐蔽且间接的。

例如问卷调查或客户服务调查这样积极的、直截了当的信息交换，揭示了劳动力如何参与反馈一个神奇的算法。但谷歌没有选用积极邀约，反而加强了被动数据收集，并通过物理空间(谷歌地图)、可预期的未来(谷歌日历)和可量化的每日网络使用情况(谷歌 Chrome 浏览器)来扩大收集范围。这些累积的数据，都在隐私页面所提及。

很快，这些隐藏的交易不仅仅是谷歌的核心，也成为了亚马逊的商业模式。早在 2003 年，在与谷歌相似的时间，这家互联网零售巨头也开始利用客户的个人数据盈利，亚马逊用大量的个人购物历史对算法进行调整，建立商品间的相似指数和消费者分析工具。利用元数据构建复杂的推荐系统，该公司很快就成为了有目的投放在线广告的先驱。表面上，亚马逊将零售店员的帮助工作自动化了，但实际上，公司只是将店员的工作放在了消费者自己身上，在消费行为中完成工作。

乍一看，这个模型完美契合了影评人 Annette Michelson 在 1979 年所说的金句，在电视广告的时代，“你就是最终交付给广告客户的产品。”但互联网的数据经济将此变得更为复杂：谷歌和亚马逊开始已经开始接受消费者数据，正如其他早期的互联网巨头利用他们的人气努力赚钱一样。当时，广告商对网络并没有兴趣，因为它没有电视的受众，而且利润回报率很低。现在，谷歌和亚马逊通过凝聚全球市场的劳动力来回避这个问题。谷歌依靠用户输入来创建主导产品，而亚马逊却把客户转变为一个庞大的个性化销售团队。他们都利用自己的权限，把用户数据转化成了有价值的商品。

因此，作为 Michelson 金句的修改版，我们可以说，在这个数字通信的时代，你的数据——而不是你自己——是交付给大众的产品。将消费者参与重新调整为有型商品和服务的同时，谷歌和亚马逊证明了自由提取的个人数据可以盈利。这些公司能够轻易经受住互联网泡沫破灭的冲击，这绝非偶然。或者说，他们的模型已经定义了随后出现的“互联网2.0”时代。

从互联网泡沫崩溃的废墟中崛起的智能手机互联网公司中，Facebook 是最闪耀的新星。由于从一开始就设定为盈利的用户数据库，马克·扎克伯格的社交网站在设定网站布局之前，就已经做了一系列的修改，迫使用户最大可能地泄漏个人信息。当我们检查网站的结构和形式，并发挥其点赞、发布和回应等作用时，算法通过我们的在线情况进行筛选，预测我们的政治倾向、收入区间和未公开的个人兴趣。

这些细节信息被打包卖给大批广告商，而并没有为赋予这些信息价值的用户提供补偿。凭借 2016 年全年超过 270 亿美元的年收入，Facebook 已经迅速发展为全球最大的互联网公司之一，仅次于 1360 亿美元的亚马逊和 900 亿美元的谷歌。

这些公司已经建立了一个组装和销售综合元数据的行业，相互关联的小细节正变得越来越复杂，也越来越有价值。在 2015 年的一次直播中，爱德华·斯诺登曾有力地解释了元数据的威力：

“当元数据追踪某人的时候，就像是私人侦探一样。他们甚至不需要离你很近，也许只是在咖啡厅里坐在你身后，就能从你低声的谈话中听到每一个词。但他们会知道你在哪里，知道你见过什么人，知道你是在什么时候做了什么，还知道你是怎么离开的并且去往何方。如果你得到了所有的数据，你就能描绘出一个人完整的生活。”

Facebook 并不仅仅知道你和其他人的关系状态、你点赞的内容和你个人资料中的照片拍摄地点，他们还把这些信息和外部访问 Facebook 的应用程序以及你通过 Facebook 访问的网页相连。这使得他们可以获取你 Tinder 的交友信息、Venmo 的转账记录、Uber 的叫车情况、Instagram 的粉丝资料、Seamless 的订单信息和你偏好的新闻来源。谷歌也类似。如果你的智能手机里安装了谷歌地图，这个技术巨头就可以通过你的搜索历史、新闻订阅、喜爱的 YouTube 视频以及你在网页上使用 Google+ 按钮的情况得知你的所有行踪。

当然，如果没有广泛的物质基础，就不可能从这种噪音占绝大多数的模式中提炼出有用信息。考虑到这个原因，大数据也被称作新的石油：它的原始形式毫无价值，但经过适当提炼后能变为财富。

为了给数据提取创造一种资本积累的感觉，Twitter 租用了亚特兰大 99 万平方英尺数据中心的五分之一，用于存储超过 500PB 的数据，还需要每天处理、缓存和分析超过 50 万条推文;Facebook 的 7 个数据中心规模从 16 万到 48.7 万平方英尺不等，直至 2015 年底，其网络设备的价值据称已超过 36 亿美元;谷歌每个季度也花费超过 50 亿美元在公司的 16 座大型数据中心上，这些数据中心位于四个不同的大洲，拥有超过 100 万个服务器。这些高昂的准入壁垒意味着后来者无法和已成立的大型数据公司竞争，也无法从用户的参与度和免费服务中提取剩余价值。因此，少数科技巨头近乎垄断地控制着我们的大量元数据。

尽管其所有权日益集中，但处理大量个人信息的能力仍然对个人和社会产生了广泛的好处。谷歌优先的新闻我一般都会觉得有趣， Ticketmaster(票务管家)根据我在 SoundClound 上关注的艺术家向我推送演出信息，我还注意到赞助商广告总是通过一些社会主义杂志来发布假日促销的信息。从宏观上来讲，对于想要设计智慧城市的城市规划者、想要预测流行病的疾病中心工作人员、想要识别和解决新问题的工程师们而言，大数据都产生了积极的影响。

尽管如此，我们不能忘记，大数据的发展归根结底是由我们组成和创造的，而不仅仅是依靠神奇的处理中心。在 2016 年初，Facebook 上每位用户的平均价值约为 15 美元，而对于谷歌的用户来说，这个数字大约是 33 美元。这些数字看似很小，但它们在庞大的消费基础上成倍增长，而且分析公司和机器学习技术的发展，提高了将原始信息加工为有价值资讯的能力，这些数字随之变得巨大。

每个人都期望参与住院病人研究、或坐在消费者小组中参与产品测试后能够获得报酬。现在，我们为这类数据业务提供了远程服务，唯一的区别是差异化变得更大。我们无法指望凭借我们的数据获取报酬，因为这些数据的创建不能认为是一种“工作”。

在价值创造中，劳动应该被肯定、被补偿。人们可能是出于个人意志而自愿参与创造价值的活动，但这并不意味着我们应该让这一新兴的、获取财富的途径集中在一小群开发人员和技术管理人员手中。如果我们不把大数据看成是一个社会性项目，我们就有可能挥霍掉一个令人难以置信的技术成就：将闲暇时间转变为物质效用的能力。

这一进步并不是向“后工作”社会转变的信号，而是意味着将劳动越来越多地根植于自愿甚至是愉快的活动中。这种工作和娱乐的结合，是马克思乌托邦式愿景的核心，在《哥达纲领批判》中他概述了这个社会，“劳动不再仅仅是生活的手段，而是生活的首要需求。”

像查尔斯·傅立叶这种乌托邦式的社会主义者，曾经设想过一个未来的社会，其中生产性工作将以个人享受和创造性实践的形式完成，哪怕进入古怪奢华的歧途。我们不太可能完全逃避生活中偶尔出现的苦活累活，或者进入类似傅立叶构想的法伦斯泰尔组织(Phalanstère，一种工农结合的和谐制度)，但是没有理由拒绝以有限或部分形式实现这一愿景的可能性。

如果我们可以主张个人数据的所有权权利，人们可以想象未来工资的增长将用于弥补从现有劳动力收集的信息价值，工作日也由于空闲时间可以收集额外价值而缩减。大数据已经在众多的消费行为中增加了一个生产要素，而我们也已经定期完成了很多事情。要充分实现大数据的社会潜力，我们必须要完成的政治任务就是承认其中涉及的隐形劳动。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

大数据推荐系统机器学习数据分析

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇图论在大数据分析中的作用！

下一篇CDA认证再升一档！与国家共同推进大数据人才培养标准教育事业！

谁拥有你的数据？谁又动了你的数据

CDA考试动态

CDA报考指南

热门栏目

最新资讯

【CDA干货】互联网运营必看：私域用户质量数据分析 ...

【CDA持证人案例分享】用 Excel 精准监控电商及推广 ...

【CDA持证人干货分享】13年国企财务：如何借助DeepS ...

【CDA持证人案例分享】Excel动态报表设计：基于业务 ...

【CDA干货】字节大佬：如何通过动态分级快速提升转 ...

Windows 系统和 MacOS 系统下的 Anaconda 安装教程 ...

数据运营的工作内容、技能要求及发展前景 ...

【干货】字节大佬：教培行业销售运营全景作战地图【 ...

四大一线城市约50%人口租房，数据分析能挖出哪些 “ ...

Python 实战案例 —RFM 客户价值分析模型 ...

【案例】奥利奥坚果新品与蒙牛“数字牧场”的成功经 ...

美关税政策下的全球金融市场动荡：深度数据分析与洞 ...

【重磅】苹果捐赠3000万给浙大这专业，透露未来就业 ...

非专业，怎么才能证明自己的数据分析能力？ ...

保姆级教程！一文读懂数据分析师的职业发展路径 ...

【干货】用DeepSeek三步骤搞定Excel数据清洗，效率 ...

被统计公式劝退？这门极简课程让你14天学会用Python ...

【干货】如何用RFM模型精准识别高价值客户？ ...

CDA数据分析师就业班3月29日开班，仅剩1个名额 ...

【案例】网飞Netflix流量漏斗分析案例 ...