图文:大数据刚刚过了炒作的高峰期_数据分析师培训
长期从事国家863计划高技术研究,1995年当选中国工程院院士,2002年当选第三世界科学院院士。现任国家“973计划”项目首席科学家,中科院计算所首席科学家,曙光公司董事长、中国计算机学会名誉理事长、国家信息化专家咨询委员会信息技术与新兴产业专委会副主任、中国科学院学位委员会副主席等职。
世界已进入了大数据时代。很多人从西方获知关于它的研究现状、重大意义,以及面临的挑战。
在中国科学界,大数据的研究和思考也在往纵深推进。大数据科学作为横跨信息科学、社会科学、网络科学、系统科学、心理学、经济学等诸多领域的新兴交叉学科方向,与此相关的理论和现实问题,得到深入的探讨。中国工程院院士李国杰长期以来研究大数据,近日,他接受了本报记者的专访,为我们呈现了一位中国科学家眼里的大数据思考。
对可能的负面影响不能掉以轻心
记者:“大数据”现在很热,也有些人比较悲观,比如法国著名哲学家斯蒂格勒最近在中国接受采访时说,如果大数据依旧是促使人类快速做决定,依旧是资本大爆炸、技术大爆炸,那么人类是没有未来的。你认为他是不是多虑了?
李国杰:斯蒂格勒认为,机器的处理是非理性化的,而没有人的理性控制,完全依赖机器是非常危险的。要将大数据推动的无序的资本运作变为有序,给人类留出做理性决策的时间,看清楚人类与技术共存的更好的方向在哪里。
一般来说,技术本身是中性的,关键看人类如何使用。技术的发展,尤其是信息技术的发展,早期往往有一个指数性增长的阶段。但任何增长都有极限,经过一段高速发展之后,一定会遇到增长的零界点(或叫“断点”)。所谓“科学发展观”就是要有理智,未雨绸缪,防止技术的负面作用无节制的扩大,导致出现灾难性的崩溃。
大数据刚刚过了炒作的高峰期,Gartner公司预测大数据技术还要5-10年后才会成为较普遍采用的主流技术(云计算和企业3D打印2-5年后就能成为主流)。从现在起,我们就应该关注如何使大数据技术和产业走上科学发展的轨道,对大数据可能带来的负面影响,比如对个人隐私的侵犯等,绝不能掉以轻心。
历史上许多新技术出现时,都曾有人担心可能危害人类的生存。交流电发明时,许多人反对将交流电接入到住宅内,但现在交流电无处不在。人类已经吃过无节制地滥用技术的苦头,将来应该会更理智地使用新技术。
大数据更难对付的是“泛数据”
记者:数据分析的历史远比大数据长。上世纪90年代兴起的数据挖掘技术的宗旨就是发现数据中有用的模式,提供有用的决策信息。在你看来,大数据的“大”是什么意思?数据挖掘是怎么演变为大数据的呢?
李国杰:上世纪70年代企业已开始采用数据库,后来在数据库的基础上发展了决策支持系统,80年代演变为商业智能和数据仓库,主要用于处理结构化的交易数据。上世纪90年代以来,由于万维网的流行,出现大量半结构化的数据(Web数据)。移动互联网和物联网的兴起使得非结构化的数据(照片和视频数据)成为网络数据的主流。近几年科学实验和工业数据也在指数性增长,其规模不亚于网上数据。数据量急剧增加、数据格式的多样化呼唤新的数据分析处理技术,大数据技术顺运而生。
其实,所谓“大数据”的特征并不仅仅是数据量大,更难对付是“杂数据”(半结构化和非结构化的数据)和“快数据”(要求实时相应的数据和流式数据,如股市交易和远程视屏点播等),更合适的名称也许是“泛数据”。
从基于数据发现情报、知识、价值和支持决策的角度,“大数据”与“小数据”并没有本质性的区别,数据分析技术上也没有集成电路和光纤通信级别的划时代发明。也许过几年人们就不再使用“大数据”这个热词,但数据的采集和分析将成为人类认识世界、改造世界越来越重要的科学技术。
重视数据,就是强调用事实说话
记者:在去年中国人民大学召开的以“开放政府数据”为题的研讨会上,你曾经说,在大数据时代,数据不仅仅是工具,也是战略,也是世界观,也是文化,为什么这样讲?能否具体解释一下?
李国杰:数据是与物质、能源一样重要的战略资源,数据的采集和分析涉及每一个行业,是带有全局性和战略性的技术。战争可能从过去的靠子弹和导弹发展到靠数据决胜的时代。从硬技术到软技术的转变是当今全球性的技术发展趋势,而从数据中发现价值的技术正是最有活力的软技术,在数据技术与产业上的落后将使我们像错过工业革命机会一样延误一个时代。
大数据通过“量化一切”而实现世界的数据化,将会改变人类认知和理解世界的方式,带来全新的大数据世界观。现在,数据已成了科学认识的基础,数据挖掘技术将传统的经验归纳法发展为“大数据归纳法”,为科学发现提供了新的认知途径。
数据文化是一种先进文化,其本质就是尊重客观世界的实事求是精神,数据就是事实。重视数据,就是强调用事实说话、按理性思维的科学精神。中国人的传统习惯是定性思维而不是定量思维。在开展智慧城市业务的过程中也发现,大多数老百姓目前对政府开放公共数据并不太关心。要让大数据走上健康发展轨道,首先要大力弘扬数据文化。
大数据促进国家治理体系的现代化
记者:目前推动大数据应用的动力主要是企业,政府对大数据似乎相对被动,给人的感觉好像就是官博、官微等互联网应用,即便投资大数据,主要目的好像还是增加GDP,大数据对政府意味着什么?政府到底要做什么?
李国杰:除了促进经济发展,大数据的另一方面效益是促进国家治理体系的现代化,提高现代化治理能力,国家治理能力的现代化不能光用GDP来反映。经济系统类似于人体的血液系统,国家治理体系类似于神经系统,我们不必用左手来证明右手的重要性。
在发展大数据技术和产业的过程中,政府可做的事情很多,主要包括:通过立法和监督培育大数据产业链和公平的企业竞争环境;加大与大数据有关的科技投入,着力突破大数据关键技术;打破部门壁垒,促进数据融合和集成;推进政府公共数据的开放共享,建设大数据开放平台;建立国家层面的数据标准体系,为数据管理提供操作指南;通过立法尽快建立个人隐私保护制度,为公众创造一个良好的大数据安全环境;加快大数据公共基础设施建设;加大大数据人才培养的力度等等。
多做一些“颇为朴实”的事情
记者:人们常说大数据是沙里淘金、大海捞针,但往往不知道沙里有没有金,海里有没有针,浪费了很多精力,你认为大数据的大价值究竟体现在哪里?
李国杰:人们总是期望从大数据中挖掘出意想不到的“大价值”。实际上大数据更大的价值是带动有关的科研和产业,提高各行各业通过数据分析解决困难问题和增值的能力。大数据的价值主要体现在它的驱动效应。大数据对经济的贡献并不完全反映在大数据公司的直接收入上,应考虑对其他行业效率和质量提高的贡献。大数据是典型的通用技术,理解通用技术要采用“蜜蜂模型”:蜜蜂的效益主要不是自己酿的蜂蜜,而是传粉对农业的贡献。
电子计算机的创始人之一冯·诺依曼曾指出:“在每一门科学中,当通过研究那些与终极目标相比颇为朴实的问题,发展出一些可以不断加以推广的方法时,这门学科就得到了巨大的进展。”我们不必天天期盼奇迹出现,所谓“啤酒加尿布”的数据挖掘经典案例其实也是Teradata公司一个经理编出来的“故事”。多做一些“颇为朴实”的事情,实际的进步就在扎扎实实的努力之中。
不要攀比大数据系统的规模,要比实际应用效果
记者:中国在大数据方面和其他一些国家的差距究竟有多大?主要体现在哪些方面?我国在发展大数据中要注意哪些问题?
李国杰:中国的大数据企业已经有相当好的基础。全球十大互联网服务企业中国占有4席(阿里巴巴、腾讯、百度和京东),其他6个TOP10 互联网服务企业全部是美国企业,欧洲和日本没有互联网企业进入TOP10。这说明中国企业在基于大数据的互联网服务业务上已处于世界前列。在发展大数据技术上,我国有可能改变过去30年技术受制于人的局面,在大数据应用上中国有可能在全世界起到引领作用。
但是,企业的规模走在世界前列并不表示我国在大数据技术上领先。实际上,国际上目前流行的大数据主流技术没有一项是我国开创的。开源社区和众包是发展大数据技术和产业的重要途径,但我们对开源社区的贡献很小,在全球近万名社区核心志愿者中,我国可能不到200名。我们要吸取过去基础研究为企业提供核心技术不够的教训,加强大数据基础研究和前瞻技术研究,努力攻克大数据核心和关键技术。另外,在数据的开放共享方面,我国也落后于许多国家(包括一些发展中国家),在保护个人隐私等立法上,我国还没有引起重视。
我们习惯于跟随国外的热潮,往往不自觉地跟着技术潮流走,最容易走上“技术驱动”的道路。实际上发展信息技术的目的是为人服务,检验一切技术的唯一标准是应用。钱学森先生曾倡导“大成智慧学”,提出“必集大成,才能得智慧”。大数据的力量就是来自“大成智慧”。一定要高度重视不同来源和不同格式数据的集成融合,强调不同部门、不同学科的协作。IEEE计算机学会最近发布了2014年的计算机技术发展趋势预测报告,重点强调“无缝智慧(seamless intelli-gence)。发展大数据的目标是要获得协同融合的“无缝智慧”。
数据挖掘的价值是用成本换来的,不能不计成本,盲目建设大数据系统。目前全国各地都在建设大数据中心,吕梁山下都建立了容量达2PB以上的数据处理中心。许多城市公安部门要求存储3个月以上的高清监控录像。这些系统的成本都非常高。我们不要攀比大数据系统的规模,而是要比实际应用效果,比完成同样的事消耗更少的资源和能量。先抓老百姓最需要的大数据应用,因地制宜发展大数据。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在当今数字化时代,数据分析师的重要性与日俱增。但许多人在踏上这条职业道路时,往往充满疑惑: 如何成为一名数据分析师?成为 ...
2025-04-02最近我发现一个绝招,用DeepSeek AI处理Excel数据简直太爽了!处理速度嘎嘎快! 平常一整天的表格处理工作,现在只要三步就能搞 ...
2025-04-01你是否被统计学复杂的理论和晦涩的公式劝退过?别担心,“山有木兮:统计学极简入门(Python)” 将为你一一化解这些难题。课程 ...
2025-03-31在电商、零售、甚至内容付费业务中,你真的了解你的客户吗? 有些客户下了一两次单就消失了,有些人每个月都回购,有些人曾经是 ...
2025-03-31在数字化浪潮中,数据驱动决策已成为企业发展的核心竞争力,数据分析人才的需求持续飙升。世界经济论坛发布的《未来就业报告》, ...
2025-03-28你有没有遇到过这样的情况?流量进来了,转化率却不高,辛辛苦苦拉来的用户,最后大部分都悄无声息地离开了,这时候漏斗分析就非 ...
2025-03-27TensorFlow Datasets(TFDS)是一个用于下载、管理和预处理机器学习数据集的库。它提供了易于使用的API,允许用户从现有集合中 ...
2025-03-26"不谋全局者,不足谋一域。"在数据驱动的商业时代,战略级数据分析能力已成为职场核心竞争力。《CDA二级教材:商业策略数据分析 ...
2025-03-26当你在某宝刷到【猜你喜欢】时,当抖音精准推来你的梦中情猫时,当美团外卖弹窗刚好是你想吃的火锅店…… 恭喜你,你正在被用户 ...
2025-03-26当面试官问起随机森林时,他到底在考察什么? ""请解释随机森林的原理""——这是数据分析岗位面试中的经典问题。但你可能不知道 ...
2025-03-25在数字化浪潮席卷的当下,数据俨然成为企业的命脉,贯穿于业务运作的各个环节。从线上到线下,从平台的交易数据,到门店的运营 ...
2025-03-25在互联网和移动应用领域,DAU(日活跃用户数)是一个耳熟能详的指标。无论是产品经理、运营,还是数据分析师,DAU都是衡量产品 ...
2025-03-24ABtest做的好,产品优化效果差不了!可见ABtest在评估优化策略的效果方面地位还是很高的,那么如何在业务中应用ABtest? 结合企业 ...
2025-03-21在企业数据分析中,指标体系是至关重要的工具。不仅帮助企业统一数据标准、提升数据质量,还能为业务决策提供有力支持。本文将围 ...
2025-03-20解锁数据分析师高薪密码,CDA 脱产就业班助你逆袭! 在数字化浪潮中,数据驱动决策已成为企业发展的核心竞争力,数据分析人才的 ...
2025-03-19在 MySQL 数据库中,查询一张表但是不包含某个字段可以通过以下两种方法实现:使用 SELECT 子句以明确指定想要的字段,或者使 ...
2025-03-17在当今数字化时代,数据成为企业发展的关键驱动力,而用户画像作为数据分析的重要成果,改变了企业理解用户、开展业务的方式。无 ...
2025-03-172025年是智能体(AI Agent)的元年,大模型和智能体的发展比较迅猛。感觉年初的deepseek刚火没多久,这几天Manus又成为媒体头条 ...
2025-03-14以下的文章内容来源于柯家媛老师的专栏,如果您想阅读专栏《小白必备的数据思维课》,点击下方链接 https://edu.cda.cn/goods/sh ...
2025-03-13以下的文章内容来源于刘静老师的专栏,如果您想阅读专栏《10大业务分析模型突破业务瓶颈》,点击下方链接 https://edu.cda.cn/go ...
2025-03-12