图文:大数据刚刚过了炒作的高峰期_数据分析师培训
长期从事国家863计划高技术研究,1995年当选中国工程院院士,2002年当选第三世界科学院院士。现任国家“973计划”项目首席科学家,中科院计算所首席科学家,曙光公司董事长、中国计算机学会名誉理事长、国家信息化专家咨询委员会信息技术与新兴产业专委会副主任、中国科学院学位委员会副主席等职。
世界已进入了大数据时代。很多人从西方获知关于它的研究现状、重大意义,以及面临的挑战。
在中国科学界,大数据的研究和思考也在往纵深推进。大数据科学作为横跨信息科学、社会科学、网络科学、系统科学、心理学、经济学等诸多领域的新兴交叉学科方向,与此相关的理论和现实问题,得到深入的探讨。中国工程院院士李国杰长期以来研究大数据,近日,他接受了本报记者的专访,为我们呈现了一位中国科学家眼里的大数据思考。
对可能的负面影响不能掉以轻心
记者:“大数据”现在很热,也有些人比较悲观,比如法国著名哲学家斯蒂格勒最近在中国接受采访时说,如果大数据依旧是促使人类快速做决定,依旧是资本大爆炸、技术大爆炸,那么人类是没有未来的。你认为他是不是多虑了?
李国杰:斯蒂格勒认为,机器的处理是非理性化的,而没有人的理性控制,完全依赖机器是非常危险的。要将大数据推动的无序的资本运作变为有序,给人类留出做理性决策的时间,看清楚人类与技术共存的更好的方向在哪里。
一般来说,技术本身是中性的,关键看人类如何使用。技术的发展,尤其是信息技术的发展,早期往往有一个指数性增长的阶段。但任何增长都有极限,经过一段高速发展之后,一定会遇到增长的零界点(或叫“断点”)。所谓“科学发展观”就是要有理智,未雨绸缪,防止技术的负面作用无节制的扩大,导致出现灾难性的崩溃。
大数据刚刚过了炒作的高峰期,Gartner公司预测大数据技术还要5-10年后才会成为较普遍采用的主流技术(云计算和企业3D打印2-5年后就能成为主流)。从现在起,我们就应该关注如何使大数据技术和产业走上科学发展的轨道,对大数据可能带来的负面影响,比如对个人隐私的侵犯等,绝不能掉以轻心。
历史上许多新技术出现时,都曾有人担心可能危害人类的生存。交流电发明时,许多人反对将交流电接入到住宅内,但现在交流电无处不在。人类已经吃过无节制地滥用技术的苦头,将来应该会更理智地使用新技术。
大数据更难对付的是“泛数据”
记者:数据分析的历史远比大数据长。上世纪90年代兴起的数据挖掘技术的宗旨就是发现数据中有用的模式,提供有用的决策信息。在你看来,大数据的“大”是什么意思?数据挖掘是怎么演变为大数据的呢?
李国杰:上世纪70年代企业已开始采用数据库,后来在数据库的基础上发展了决策支持系统,80年代演变为商业智能和数据仓库,主要用于处理结构化的交易数据。上世纪90年代以来,由于万维网的流行,出现大量半结构化的数据(Web数据)。移动互联网和物联网的兴起使得非结构化的数据(照片和视频数据)成为网络数据的主流。近几年科学实验和工业数据也在指数性增长,其规模不亚于网上数据。数据量急剧增加、数据格式的多样化呼唤新的数据分析处理技术,大数据技术顺运而生。
其实,所谓“大数据”的特征并不仅仅是数据量大,更难对付是“杂数据”(半结构化和非结构化的数据)和“快数据”(要求实时相应的数据和流式数据,如股市交易和远程视屏点播等),更合适的名称也许是“泛数据”。
从基于数据发现情报、知识、价值和支持决策的角度,“大数据”与“小数据”并没有本质性的区别,数据分析技术上也没有集成电路和光纤通信级别的划时代发明。也许过几年人们就不再使用“大数据”这个热词,但数据的采集和分析将成为人类认识世界、改造世界越来越重要的科学技术。
重视数据,就是强调用事实说话
记者:在去年中国人民大学召开的以“开放政府数据”为题的研讨会上,你曾经说,在大数据时代,数据不仅仅是工具,也是战略,也是世界观,也是文化,为什么这样讲?能否具体解释一下?
李国杰:数据是与物质、能源一样重要的战略资源,数据的采集和分析涉及每一个行业,是带有全局性和战略性的技术。战争可能从过去的靠子弹和导弹发展到靠数据决胜的时代。从硬技术到软技术的转变是当今全球性的技术发展趋势,而从数据中发现价值的技术正是最有活力的软技术,在数据技术与产业上的落后将使我们像错过工业革命机会一样延误一个时代。
大数据通过“量化一切”而实现世界的数据化,将会改变人类认知和理解世界的方式,带来全新的大数据世界观。现在,数据已成了科学认识的基础,数据挖掘技术将传统的经验归纳法发展为“大数据归纳法”,为科学发现提供了新的认知途径。
数据文化是一种先进文化,其本质就是尊重客观世界的实事求是精神,数据就是事实。重视数据,就是强调用事实说话、按理性思维的科学精神。中国人的传统习惯是定性思维而不是定量思维。在开展智慧城市业务的过程中也发现,大多数老百姓目前对政府开放公共数据并不太关心。要让大数据走上健康发展轨道,首先要大力弘扬数据文化。
大数据促进国家治理体系的现代化
记者:目前推动大数据应用的动力主要是企业,政府对大数据似乎相对被动,给人的感觉好像就是官博、官微等互联网应用,即便投资大数据,主要目的好像还是增加GDP,大数据对政府意味着什么?政府到底要做什么?
李国杰:除了促进经济发展,大数据的另一方面效益是促进国家治理体系的现代化,提高现代化治理能力,国家治理能力的现代化不能光用GDP来反映。经济系统类似于人体的血液系统,国家治理体系类似于神经系统,我们不必用左手来证明右手的重要性。
在发展大数据技术和产业的过程中,政府可做的事情很多,主要包括:通过立法和监督培育大数据产业链和公平的企业竞争环境;加大与大数据有关的科技投入,着力突破大数据关键技术;打破部门壁垒,促进数据融合和集成;推进政府公共数据的开放共享,建设大数据开放平台;建立国家层面的数据标准体系,为数据管理提供操作指南;通过立法尽快建立个人隐私保护制度,为公众创造一个良好的大数据安全环境;加快大数据公共基础设施建设;加大大数据人才培养的力度等等。
多做一些“颇为朴实”的事情
记者:人们常说大数据是沙里淘金、大海捞针,但往往不知道沙里有没有金,海里有没有针,浪费了很多精力,你认为大数据的大价值究竟体现在哪里?
李国杰:人们总是期望从大数据中挖掘出意想不到的“大价值”。实际上大数据更大的价值是带动有关的科研和产业,提高各行各业通过数据分析解决困难问题和增值的能力。大数据的价值主要体现在它的驱动效应。大数据对经济的贡献并不完全反映在大数据公司的直接收入上,应考虑对其他行业效率和质量提高的贡献。大数据是典型的通用技术,理解通用技术要采用“蜜蜂模型”:蜜蜂的效益主要不是自己酿的蜂蜜,而是传粉对农业的贡献。
电子计算机的创始人之一冯·诺依曼曾指出:“在每一门科学中,当通过研究那些与终极目标相比颇为朴实的问题,发展出一些可以不断加以推广的方法时,这门学科就得到了巨大的进展。”我们不必天天期盼奇迹出现,所谓“啤酒加尿布”的数据挖掘经典案例其实也是Teradata公司一个经理编出来的“故事”。多做一些“颇为朴实”的事情,实际的进步就在扎扎实实的努力之中。
不要攀比大数据系统的规模,要比实际应用效果
记者:中国在大数据方面和其他一些国家的差距究竟有多大?主要体现在哪些方面?我国在发展大数据中要注意哪些问题?
李国杰:中国的大数据企业已经有相当好的基础。全球十大互联网服务企业中国占有4席(阿里巴巴、腾讯、百度和京东),其他6个TOP10 互联网服务企业全部是美国企业,欧洲和日本没有互联网企业进入TOP10。这说明中国企业在基于大数据的互联网服务业务上已处于世界前列。在发展大数据技术上,我国有可能改变过去30年技术受制于人的局面,在大数据应用上中国有可能在全世界起到引领作用。
但是,企业的规模走在世界前列并不表示我国在大数据技术上领先。实际上,国际上目前流行的大数据主流技术没有一项是我国开创的。开源社区和众包是发展大数据技术和产业的重要途径,但我们对开源社区的贡献很小,在全球近万名社区核心志愿者中,我国可能不到200名。我们要吸取过去基础研究为企业提供核心技术不够的教训,加强大数据基础研究和前瞻技术研究,努力攻克大数据核心和关键技术。另外,在数据的开放共享方面,我国也落后于许多国家(包括一些发展中国家),在保护个人隐私等立法上,我国还没有引起重视。
我们习惯于跟随国外的热潮,往往不自觉地跟着技术潮流走,最容易走上“技术驱动”的道路。实际上发展信息技术的目的是为人服务,检验一切技术的唯一标准是应用。钱学森先生曾倡导“大成智慧学”,提出“必集大成,才能得智慧”。大数据的力量就是来自“大成智慧”。一定要高度重视不同来源和不同格式数据的集成融合,强调不同部门、不同学科的协作。IEEE计算机学会最近发布了2014年的计算机技术发展趋势预测报告,重点强调“无缝智慧(seamless intelli-gence)。发展大数据的目标是要获得协同融合的“无缝智慧”。
数据挖掘的价值是用成本换来的,不能不计成本,盲目建设大数据系统。目前全国各地都在建设大数据中心,吕梁山下都建立了容量达2PB以上的数据处理中心。许多城市公安部门要求存储3个月以上的高清监控录像。这些系统的成本都非常高。我们不要攀比大数据系统的规模,而是要比实际应用效果,比完成同样的事消耗更少的资源和能量。先抓老百姓最需要的大数据应用,因地制宜发展大数据。
数据分析咨询请扫描二维码
《Python数据分析极简入门》 第2节 4 Pandas条件查询 在pandas中,可以使用条件筛选来选择满足特定条件的数据 importpanda ...
2024-11-22数据分析师的工作内容涉及多个方面,主要包括数据的收集、整理、分析和可视化,以支持商业决策和问题解决。以下是数据分析师的一 ...
2024-11-21数据分析师必须掌握的技能可以从多个方面进行归纳和总结。以下是数据分析师需要具备的主要技能: 统计学基础:数据分析师需要 ...
2024-11-21数据分析入门的难易程度因人而异,总体来看,入门并不算特别困难,但需要一定的学习和实践积累。 入门难度:数据分析入门相对 ...
2024-11-21数据分析是一项通过收集、整理和解释数据来发现有用信息的过程,它在现代社会中具有广泛的应用和重要性。数据分析能够帮助人们更 ...
2024-11-21数据分析行业正在迅速发展,随着技术的不断进步和数据量的爆炸式增长,企业对数据分析人才的需求也与日俱增。本文将探讨数据分析 ...
2024-11-21数据分析的常用方法包括多种技术,每种方法都有其特定的应用场景和优势。以下是几种常见的数据分析方法: 对比分析法:通过比 ...
2024-11-21企业数字化转型是指企业利用数字技术对其业务进行改造和升级,以实现提高效率、降低成本、创新业务模式等目标的过程。这一过程不 ...
2024-11-21数据分析作为一个备受追捧的职业领域,吸引着越来越多的女性加入其中。对于女生而言,在选择成为一名数据分析师时,行业选择至关 ...
2024-11-21大数据技术专业主要学习计算机科学、数学、统计学和信息技术等领域的基础理论和技能,旨在培养具备大数据处理、分析和应用能力的 ...
2024-11-21《Python数据分析极简入门》 第2节 3 Pandas数据查看 这里我们创建一个DataFrame命名为df: importnumpyasnpi ...
2024-11-21越老越吃香的行业主要集中在需要长时间经验积累和专业知识的领域。这些行业通常知识更新换代较慢,因此随着年龄的增长,从业者能 ...
2024-11-20数据导入 使用pandas库的read_csv()函数读取CSV文件或使用read_excel()函数读取Excel文件。 支持处理不同格式数据,可指定分隔 ...
2024-11-20大数据与会计专业是一门结合了大数据分析技术和会计财务理论知识的新型复合型学科,旨在培养能够适应现代会计业务新特征的高层次 ...
2024-11-20要成为一名数据分析师,需要掌握一系列硬技能和软技能。以下是成为数据分析师所需的关键技能: 统计学基础 理解基本的统计概念 ...
2024-11-20是的,Python可以用于数据分析。Python在数据分析领域非常流行,因为它拥有丰富的库和工具,能够高效地处理从数据清洗到可视化的 ...
2024-11-20在这个数据驱动的时代,数据分析师的角色变得愈发不可或缺。他们承担着帮助企业从数据中提取有价值信息的责任,而这些信息可以大 ...
2024-11-20数据分析作为现代信息时代的支柱之一,已经成为各行业不可或缺的工具。无论是在商业、科研还是日常决策中,数据分析都扮演着至关 ...
2024-11-20数字化转型已成为当今商业世界的热点话题。它不仅代表着技术的提升,还涉及企业业务流程、组织结构和文化的深层次变革。理解数字 ...
2024-11-20在现代社会的快速变迁中,选择一个具有长期增长潜力的行业显得至关重要。了解未来发展前景好的行业不仅能帮助我们进行职业选择, ...
2024-11-20