大数据 正经历成长的烦恼
提起大数据,很多人都感觉略知一二;但大数据到底是什么,又很少有人能解释清楚。今年两会期间,包括小米科技创始人雷军、联想集团董事长杨元庆、科大讯飞董事长刘庆峰在内的多位代表、委员都提出了与大数据相关的建议和提案,他们一方面希望从国家层面推动大数据的发展,另一方面也对它在信息安全方面可能存在的隐患提出了警示。
大数据记录了所有一切
一份调查显示,2013年我国产生的数据总量超过0.8ZB,相当于2009年全球的数据总量;而到2020年,一个普通中国家庭每年产生的数据量,将相当于半个国家图书馆的信息储量。
中国电子学会秘书长徐晓兰委员指出,海量的信息储存和挖掘,既是大数据的价值所在,也是它有别于传统互联网、可能对信息安全带来的新隐患。
“大数据时代,记录了很多以往根本不可能或者不需要记录的数据,比如微博、朋友圈的内容,上网产生的cookie,家庭水电气使用的情况、汽车和大型设备上安装的传感器拿到的数据等。”社交数据分析公司独到科技的CEO张文浩说,“如果这些信息都是‘孤岛’,影响可能不大。但一旦相互关联,影响力会大得惊人。”
中科院信息工程所所长田静委员也表示,以往碎片化的数据只是盲人摸象,但现在这些碎片全都被存贮起来,通过相关性分析拼凑,“就知道象到底长什么样了”。
技术上的差距,也造成了大数据暂时的“不安全”。
“没有自己的分析能力,我们怎么能搞清楚哪些数据是需要保护的?”
对于田静的这个“问题”,国家信息化专家咨询委员会副主任、中国工程院院士邬贺铨提供的一组数据给出了答案——数据中,大约有一半是应该保护的,但我们现在真正保护的“只有一半的一半”,很多数据在有意或无意当中被获取,“如果这些数据整合起来,被某些别有用心的人利用,会对安全造成很大的影响”。
徐晓兰介绍,目前我国很多机构和企业使用大数据分析软件都是国外厂商生产的,特别是近几年视频等多媒体数据爆炸性增长,“这些数据都是异构化的,这部分软件是我们的短板”。
著名军事专家尹卓委员则指出,现在互联网所使用的服务器大都放在美国,“自己没有服务器怎么可能安全”?
另一方面,在田静看来,缺乏大数据环境下的安全理念也是重要原因之一。“过去认为无害的信息,在数据爆炸的今天,已经完全不一样了。观念不改,是没有秘密可保的。”
张文浩也认为,国人缺乏这方面的意识。“在美国,很多人都会要求不公开自己的隐私,或者主动把自己的数据提供给某些特定的机构使用;但在国内几乎没有听到过,大家也不知道什么类型的数据可能会有多大的风险。”
大数据或许也很“危险”
张文浩认为,很多人对于大数据的理解都只注意到数据的体量和统计,“其实,通过深度分析,从纷繁的数据中抽象出规则和原理,并实现对未来的前瞻性预测,才是大数据真正的价值和魅力所在”。
因为大数据,奥巴马在2012年成为过去70年来,第一位在失业率高达7.4%的情况下成功连任的美国总统;因为大数据,Target超市“预测”了18岁少女的怀孕……
任何一项新技术的背后,都可能悬挂着一把达摩克利斯之剑。大数据也是如此,在人们惊叹于它的“神力”之时,“威胁”也正悄悄逼近。
“前两年,国外一家情报搜集机构利用国内某机构人员公开发表的数据和资讯,进行深度挖掘分析,生成了有价值的情报。”徐晓兰告诉记者,后来经过详细调查,确认情报确实不是该人员提供,而生成情报的那些数据本身也是可公开的。“这在以往几乎是不可能的,也给我们敲响了警钟。”
尹卓以战时的交通流量信息举例说,如果不注重数据的安全使用,将可能对国家安全带来隐患。“科索沃战争中,南联盟的油料库虽然隐蔽得很好,但美国军方通过对卫星图中的交通流量进行分析,划定了大量油罐车经常出没的区域,在进行精确搜寻,从而一举炸毁。”
如果您认为这些“危险因素”离自己很远,那就大错特错。
“现在很多智能手机的应用都要求访问通讯录,”邬贺铨说,很多人觉得自己没有什么秘密,就同意了。“但实际上,这不仅会透露自己的大量信息,也会把很多人置于隐私暴露的危险之下 。”
张文浩也指出,现在很多年轻人都有用手机发微博或者“签到”的习惯,“这样其实会泄漏自己的很多信息。比如你白天经常签到的位置就很有可能是你的单位,傍晚以后签的多半是自己家”。
大数据正经历成长的烦恼
“要想征服数据,只有更好地利用它们。”张文浩说,数据是一种资源和财富,积累越多,产生的效力也会越大。
这个观点得到了邬贺铨的认同。他认为,越想规避大数据带来的安全风险,越需要搜集储存海量的数据,并进行深入的挖掘分析。“有统计显示,国内数据搜集量不及日本的60%和北美的7%,大量数据留这样白白流逝。”
“企业掌握的数据毕竟有限,而且是局部的。”百度公司董事长李彦宏委员提出了数据开放的概念,国家应该把那些不涉及安全的数据公开,让有能力的机构进行更好的分析利用。
国家基础地理信息中心原总工程师李莉委员指出,有的公共部门掌握了大量公共信息,这些数据是国家基础信息的重要组成部分。邬贺铨强调,这些数据“不愿与其他部门共享,导致了信息不完整或重复投资”。
共享数据在技术上是否存在很大的难度?在徐晓兰看来,现在需要大力发展的数据挖掘、分析方面的技术,但对于数据共享本身而言,技术不是最大的障碍,关键还是利益协调。她说几年前,国土部和银监会准备摸底国家土地信息,“一开始很多人提出各种各样的困难,几乎认为是不可能完成的任务。但后来引入问责等行政手段,得到地方配合,进行得就很顺利”。
张文浩认为,建立一个公开、透明、规范的数据市场,将会大大增强数据的利用率。但在这个过程中,需要仔细考量什么样的数据可以进入市场。
这就涉及到立法的问题。“界定‘隐私’和为数据进行安全分级,是制定法律法规时要优先考虑的方面。”他指出,“个性化服务和隐私之间是一个博弈。名字、电话、住址……不能什么都说是隐私,因此需要为数据安全分级。简单地说,通过数据分析的经验,我们会知道哪类信息具有更强的指向性和排他性。这类信息的安全级别就应该更高。”
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
你是否被统计学复杂的理论和晦涩的公式劝退过?别担心,“山有木兮:统计学极简入门(Python)” 将为你一一化解这些难题。课程 ...
2025-03-31在电商、零售、甚至内容付费业务中,你真的了解你的客户吗? 有些客户下了一两次单就消失了,有些人每个月都回购,有些人曾经是 ...
2025-03-31在数字化浪潮中,数据驱动决策已成为企业发展的核心竞争力,数据分析人才的需求持续飙升。世界经济论坛发布的《未来就业报告》, ...
2025-03-28你有没有遇到过这样的情况?流量进来了,转化率却不高,辛辛苦苦拉来的用户,最后大部分都悄无声息地离开了,这时候漏斗分析就非 ...
2025-03-27TensorFlow Datasets(TFDS)是一个用于下载、管理和预处理机器学习数据集的库。它提供了易于使用的API,允许用户从现有集合中 ...
2025-03-26"不谋全局者,不足谋一域。"在数据驱动的商业时代,战略级数据分析能力已成为职场核心竞争力。《CDA二级教材:商业策略数据分析 ...
2025-03-26当你在某宝刷到【猜你喜欢】时,当抖音精准推来你的梦中情猫时,当美团外卖弹窗刚好是你想吃的火锅店…… 恭喜你,你正在被用户 ...
2025-03-26当面试官问起随机森林时,他到底在考察什么? ""请解释随机森林的原理""——这是数据分析岗位面试中的经典问题。但你可能不知道 ...
2025-03-25在数字化浪潮席卷的当下,数据俨然成为企业的命脉,贯穿于业务运作的各个环节。从线上到线下,从平台的交易数据,到门店的运营 ...
2025-03-25在互联网和移动应用领域,DAU(日活跃用户数)是一个耳熟能详的指标。无论是产品经理、运营,还是数据分析师,DAU都是衡量产品 ...
2025-03-24ABtest做的好,产品优化效果差不了!可见ABtest在评估优化策略的效果方面地位还是很高的,那么如何在业务中应用ABtest? 结合企业 ...
2025-03-21在企业数据分析中,指标体系是至关重要的工具。不仅帮助企业统一数据标准、提升数据质量,还能为业务决策提供有力支持。本文将围 ...
2025-03-20解锁数据分析师高薪密码,CDA 脱产就业班助你逆袭! 在数字化浪潮中,数据驱动决策已成为企业发展的核心竞争力,数据分析人才的 ...
2025-03-19在 MySQL 数据库中,查询一张表但是不包含某个字段可以通过以下两种方法实现:使用 SELECT 子句以明确指定想要的字段,或者使 ...
2025-03-17在当今数字化时代,数据成为企业发展的关键驱动力,而用户画像作为数据分析的重要成果,改变了企业理解用户、开展业务的方式。无 ...
2025-03-172025年是智能体(AI Agent)的元年,大模型和智能体的发展比较迅猛。感觉年初的deepseek刚火没多久,这几天Manus又成为媒体头条 ...
2025-03-14以下的文章内容来源于柯家媛老师的专栏,如果您想阅读专栏《小白必备的数据思维课》,点击下方链接 https://edu.cda.cn/goods/sh ...
2025-03-13以下的文章内容来源于刘静老师的专栏,如果您想阅读专栏《10大业务分析模型突破业务瓶颈》,点击下方链接 https://edu.cda.cn/go ...
2025-03-12以下的文章内容来源于柯家媛老师的专栏,如果您想阅读专栏《小白必备的数据思维课》,点击下方链接 https://edu.cda.cn/goods/sh ...
2025-03-11随着数字化转型的加速,企业积累了海量数据,如何从这些数据中挖掘有价值的信息,成为企业提升竞争力的关键。CDA认证考试体系应 ...
2025-03-10