大数据卖的就是隐私_数据分析师考试
随着互联网技术更新换代,数据的大规模采集和分析使用,已是人们生活的常态。高端分析算式的研发,使抽取数据中藏着的有用信息成为现实。于是数据的魔力大放异彩,给我们带来了梦寐以求的便利。例如,商家仿佛钻进消费者肚子里的孙悟空,你才转了个念头,电脑和手机就奇迹般地开始推送相关的商品广告了。真应了那句老话:心想事成。当然,我们也添了许多闻所未闻的麻烦,比如刚接通一个免费WiFi,银行账户信息就莫名其妙地泄露了。电视台天天报道,告诫大家警惕。但在市场弄潮儿眼里,数据还有更为奇妙的神功,那就是取之不尽、用之不竭的廉价原材料——元数据。元数据追踪着我们的生活,一刻不停又无处不在,仿佛一座座富矿,等待着算式处理、点石成金。多少人想挖掘这富矿……现在,终于打通了矿井,而那最后的爆破就是:数据商品化,公开合法的交易。
然而,要把数据交易这颗“明珠”稳稳当当地放上数据产业金字塔的顶端,尚有一道难题需要回答:数据要当做商品,它的所有权何在?
一样东西之成为商品,一是因为它有某种使用价值,如饮食、观赏、制作工具等;二是因为有人拿它来买卖,即实现其可交换的价值。如此就有了价格和市场。一般来说,商品的产权清晰,买卖才做得成。明确的所有权(ownership)归属,是商品参与市场交易的前提条件,而所有权的界定有赖于一套稳定的社会道德伦理和法律规范;否则就难以有效行使产权,包括市场交易,并合理合法地解决相关的纠纷。显然,数据作为商品,也不例外。不幸的是,信息时代虽然来临,数据的财产所有权却一直缺乏规范,滞留在法律的灰色地带。因此,海量的数据挂牌交易,对于市场秩序和交易双方,就充满了法律风险;而且,从社会公正的角度看,还极易损害被记录主体的一些公民基本权利,包括人格权与财产权,影响到民众的医保、生育、就业和人身自由权。为了降低并管控这些风险,我们有必要研究一下数据所有权的归属,对数据商品化,即新产权的攫取和扩张可能带来的社会后果考察一番。
数据的所有权到底该归谁?如,你在网上购物生成的数据,产权属于网店、网上购物平台提供商,还是你自己?患者就诊,病史信息归病人、医院,还是医院的电脑系统提供商?社保个人账户数据,属于参保者、政府、共同基金,抑或网络系统外包商?这是回避不了的问题,现行法律规范和学说却显得捉襟见肘,拿不出有说服力又便于操作的答案。为什么呢?我们仔细思考便会发现,那困境的起因,在于数据的不同寻常的价值特征,或者说,在于它正在获得的市场新身份——商品。
数据,若是指记录下来的一组信息,并不是什么新鲜事。自人类发明了记录工具和手段,如文字符号、纸张和硬盘,数据就一直伴随着我们。历史上,所有权不太受关注,是因为数据一般不会被当作商品,不参与市场交易;私下或非法的付费(如贿赂和谍报活动)不算。互联网技术大规模开发了数据的价值,数据商品化,所有权问题才凸显了。
作为商品,数据具有类似无形财产的特征,可以无限复制而无损耗;其所有权、许可使用、收益和转让,都依赖法律的保障。一般认为,无形财产的权属界定有一个特点,初始所有权与财产的生成及价值起源挂钩。例如,文学艺术作品的版权首先属于作者,因为作品是通过作者的劳动才产生,并有了价值。同样的素材,让不同的作者来创作(包括集体创作),作品的内容风格可以千姿百态。这说明,作品蕴含了作者的思想人格。所以,现代法律才把无形财产的初始所有权视为创作的果实,并把作品价值归于作者的人格和创造性劳动。恰恰在这一点上,数据与别的无形财产如版权,分道扬镳了。
我们知道,跟文艺创作和技术发明不一样,数据的价值不是因记录者的制作而起的。数据只有忠实于被记录主体,准确反映后者的身份性格行为习惯等等,才具有价值。换言之,记录下来的信息必须“无创见”、“非创新”,客观得像一面镜子,才有实用价值。不论血糖血脂的定期测量、消费习惯或借贷信用的曲线,还是网民访问网页的点击数、气候变化同粮食收成或公司营运的相关性数据:脱离了具体的被记录的人、物、事,数据是无意义、无价值也不能用的。不忠实的记录如果不是疏忽,便是编造,是假数据。可见,数据的全部价值,就在百分之百依附于被记录主体,而不能剥离了独立存在。于是,根据上述无形财产的一般原理,作品价值与初始所有权统一,数据所有权的生成(subsistence)应是在被记录主体。
这道理也符合我们的常识。比方说,同样一套数据,换一个人或一家公司记录,或者换一台电脑来处理、储存,丝毫不会改变数据内容。就数据的价值而言,谁来记录和用什么工具记录并不重要,重要的是被记录的是谁、是什么。诚然,数据的采集整理离不开记录者和记录工具,乃至投资方的支持。但投资和采集整理产生的是次生的权利,动摇不了数据的初始所有权。因为数据从属于被记录主体,两者不可分离,是数据价值的所在。而记录者及其工具手段与数据内容的关系则是松散的、可置换的,不是数据价值的起源。故而数据的初始财产权属于被记录主体,不仅有学理和社会道德的支持,落实在新产权的建设上,似乎也应是权利配置的“自然”选择。
不过,学理归学理,现实世界里大数据的监管,法律法规才刚起步,不太给力。这里涉及大数据的另一个特征:所有权人同记录者 / 占有者的分离,即数据的财产所有权人一般不是数据的记录和持有者——所有权人非但不占有数据,连接触、支配自己的数据财产也很困难。平常所谓财产问题,财产或者掌握在产权人手中,或者有明确的合同委托监护,如房产、首饰、存款。至少,产权人知晓财产的存在和财产权的归属。产权人有意愿,且依法有能力,行使自己的权利。但是遇到数据财产,情况就变了。例如,网店的交易双方可能不清楚,自己的行为已经被平台提供方记录在案,更无从了解是如何记录的,放进了哪些数据集,会交付谁使用,怎样使用。又如,互联网搜索器记录下的搜索行为的每一个细节,用户是无权访问,也没法监督的。这就使得被记录主体处于一个尴尬境地:他虽然拥有理论上的数据所有权,实际上却很难行使。反观数据记录者,尽管没有初始产权,却因为拥有记录工具和手段,就控制了记录过程、内容、格式和结果,把数据牢牢握在手中。而且,这法律意义上的受委托方,甩开了委托人 / 被记录主体,成了数据的唯一持有者。更微妙的是,大数据以量取胜,孤立的单个数据几乎没有商品价值;故而多数被记录主体容易忽视自己的数据产权。但是一个个数据集腋成裘,便是宝藏。而大型数据集的处理使用,须借助复杂的分析算式与大功率计算机,老百姓和小公司难以问津。渐渐地,大数据的采集整理,便成了财力雄厚的大公司的专利。产权人的疏忽或无力,即占有者的便利。后者往往随意使用数据,出了问题,后果也难以追究,包括数据丢失、黑市交易,更不要说个人隐私满天飞了。这是大数据时代的一道世界性的难题。
正是意识到这种复杂性,数据产业才决定绕开所有权,快刀斩乱麻:成立大数据交易所,挂牌交易,用既成事实“倒逼”社会和法律默许。推手希望通过交易所,给数据披上一件崭新的外衣,遮住所有权上的瑕疵。同时,利用媒体开展宣传攻势,淡化对个人隐私和公共利益的威胁,声称:“交易所交易的不是底层数据,而是清洗、分析、建模之后的数据结果。”(见《贵阳日报》2015年5月16日头版)似乎经过“清洗”,一下子解决了两个敏感问题:一、数据集经过清洗,遮蔽了身份信息,个人隐私、技术秘密等就能获得保护;二、清洗过后,数据便摆脱了初始所有权而有了新的业主,可以合法交易了。但事实上,所谓“清洗” 并不等于“脱敏”。更重要的是,法理上,“清洗”这一技术手段不可能将“底层数据”的所有权转移到所谓“数据结果”。就像拿了别人的珍珠项链,不会因为把珍珠拆下重新串过,项链变长变短,或者镶在几只胸针上,那些珍珠就变成自己的财产,就可以合法出售。所以“清洗”只是回避问题的一种说法;那被回避的,才是数据商品化的要害所在:底层数据到底属于谁?谁说了算?
所以不是偶然,最近美国多个农会的一次联合行动,正是这样的质问和拒绝“倒逼”。他们的立场与上述讨论殊途同归,我以为代表了国际潮流,体现了前沿社会在数据所有权归属及衍生权利范围等问题上的基本共识。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
你是否被统计学复杂的理论和晦涩的公式劝退过?别担心,“山有木兮:统计学极简入门(Python)” 将为你一一化解这些难题。课程 ...
2025-03-31在电商、零售、甚至内容付费业务中,你真的了解你的客户吗? 有些客户下了一两次单就消失了,有些人每个月都回购,有些人曾经是 ...
2025-03-31在数字化浪潮中,数据驱动决策已成为企业发展的核心竞争力,数据分析人才的需求持续飙升。世界经济论坛发布的《未来就业报告》, ...
2025-03-28你有没有遇到过这样的情况?流量进来了,转化率却不高,辛辛苦苦拉来的用户,最后大部分都悄无声息地离开了,这时候漏斗分析就非 ...
2025-03-27TensorFlow Datasets(TFDS)是一个用于下载、管理和预处理机器学习数据集的库。它提供了易于使用的API,允许用户从现有集合中 ...
2025-03-26"不谋全局者,不足谋一域。"在数据驱动的商业时代,战略级数据分析能力已成为职场核心竞争力。《CDA二级教材:商业策略数据分析 ...
2025-03-26当你在某宝刷到【猜你喜欢】时,当抖音精准推来你的梦中情猫时,当美团外卖弹窗刚好是你想吃的火锅店…… 恭喜你,你正在被用户 ...
2025-03-26当面试官问起随机森林时,他到底在考察什么? ""请解释随机森林的原理""——这是数据分析岗位面试中的经典问题。但你可能不知道 ...
2025-03-25在数字化浪潮席卷的当下,数据俨然成为企业的命脉,贯穿于业务运作的各个环节。从线上到线下,从平台的交易数据,到门店的运营 ...
2025-03-25在互联网和移动应用领域,DAU(日活跃用户数)是一个耳熟能详的指标。无论是产品经理、运营,还是数据分析师,DAU都是衡量产品 ...
2025-03-24ABtest做的好,产品优化效果差不了!可见ABtest在评估优化策略的效果方面地位还是很高的,那么如何在业务中应用ABtest? 结合企业 ...
2025-03-21在企业数据分析中,指标体系是至关重要的工具。不仅帮助企业统一数据标准、提升数据质量,还能为业务决策提供有力支持。本文将围 ...
2025-03-20解锁数据分析师高薪密码,CDA 脱产就业班助你逆袭! 在数字化浪潮中,数据驱动决策已成为企业发展的核心竞争力,数据分析人才的 ...
2025-03-19在 MySQL 数据库中,查询一张表但是不包含某个字段可以通过以下两种方法实现:使用 SELECT 子句以明确指定想要的字段,或者使 ...
2025-03-17在当今数字化时代,数据成为企业发展的关键驱动力,而用户画像作为数据分析的重要成果,改变了企业理解用户、开展业务的方式。无 ...
2025-03-172025年是智能体(AI Agent)的元年,大模型和智能体的发展比较迅猛。感觉年初的deepseek刚火没多久,这几天Manus又成为媒体头条 ...
2025-03-14以下的文章内容来源于柯家媛老师的专栏,如果您想阅读专栏《小白必备的数据思维课》,点击下方链接 https://edu.cda.cn/goods/sh ...
2025-03-13以下的文章内容来源于刘静老师的专栏,如果您想阅读专栏《10大业务分析模型突破业务瓶颈》,点击下方链接 https://edu.cda.cn/go ...
2025-03-12以下的文章内容来源于柯家媛老师的专栏,如果您想阅读专栏《小白必备的数据思维课》,点击下方链接 https://edu.cda.cn/goods/sh ...
2025-03-11随着数字化转型的加速,企业积累了海量数据,如何从这些数据中挖掘有价值的信息,成为企业提升竞争力的关键。CDA认证考试体系应 ...
2025-03-10