面临大数据挑战的网络科学_数据分析师培训
随着现代科技,尤其网络信息科技的突飞猛进,全球以互联网和移动通信技术等为核心的信息爆炸式增长,数据无边界,大数据无所不在,数据包罗万象,已经成为不争事实。
值得我国关注和深思的问题之一是,为什么美国总能引领世界科技创新和信息发展的未来方向?请看:美国从沿1993年9月开始的“信息高速公路”(“国家信息基础设施”(National Information Infrastructure,简称NII)),狂飙到“大数据”。2012年3月美国奥巴马政府出台了“大数据研究和发展倡议(Big Data Research and Development Initiative)”,成为美国联邦政府的又一项重大国策,震撼全球,必将在全世界产生广泛而深刻的长远影响。美国之所以能够引领世界科技的潮流是因为美国具有公认的最先进的科技和人才优势。并具有与时俱进和引领未来新潮的雄心勃勃的科学家群体和最雄厚的国力。我国与其相比怎么样?我们不得不承认确实还有不小差距。就拿网络科学来说,为什么老是巴拉巴西为首的美国网络科学家群体成为国际上该领域的领羊头?这里需要我们三思啊!这次座谈会如果能够议论这个问题,应该是非常有意义的。只有我们勇敢坦诚地面对挑战,找到了差距,明确了方向,我们的力量才能用在刀刃上。特别寄希望于我国年轻一代,不骄不躁,脚踏实地,百倍努力,加速驱动创新,我国才能在不久的将来有望迎头赶超国际先进水平!
美国大数据倡议目的是,大力推进从大量的、复杂的数据集合挖掘新知识、提高洞察力、激励新智慧。白宫科技政策办公室(White House Office of Science and Technology Policy,OSTP)是这份倡议制定者,首批确定6个联邦部门宣布投资2亿美元,一致确认:共同提高收集、储存、保留、管理、分析和共享海量数据所需核心的先进技术,并形成合力;扩大大数据技术开发和培养应用所需的“数据科学家”后备人才。请注意:美国总是念念不忘人才,只有科技人才是领引国家未来发展的最重要的先决条件。同时透露了多项正在进行中的美国联邦政府各部门的大数据计划。美国国防部在大数据上每年的投资大约是2.5亿美元(6000万美元用于新研究项目),包括一系列跨军事部门的项目。美国国防部高级研究计划局(Defense Advanced Research Projects Agency,DARPA)启动了XDATA计划,该计划每年投资约2500万美元,将持续四年,用于开发分析半结构化和巨大容量的数据计算方法和软件工具。从上可见,美国正在举国上下动员各个领域和部门,调动和利用一切可能的力量向着前所未有的大数据大进军!
值得深思的问题之二是,大数据为什么上升到了一场国家战略高度?突出的关键点:大数据技术领域的竞争,事关国家安全和未来,大数据堪比隐形金矿,奥巴马政府公开称其为“未来的新石油”。“大数据”的计划要求科学家从大数据中萃取有价值的信息,并从国家层面找到保证信息安全的有效措施。过去,美国联邦政府运用同样的倡议方式在信息技术研发领域进行投资,使得其在超级计算和互联网建设方面获得了巨大的进步。而如今的这份倡议又承诺了在科学发现、环境保护和生物医药研究、教育,以及国家安全等领域利用大数据能力的突破。不言而喻,美国的大数据战略是从大数据中萃取有利于美国持久繁荣的智慧,并从国家层面找到保证信息安全的有效措施。我国能够无动于衷吗?当然不能!!
特别值得指出是,从国家层面看,“大数据”实质上涉及到国家数字主权问题,它体现在一国拥有数据的规模、活性以及解释、运用的能力,以及对数据的占有和控制的能力。就像网络空间成为继海、陆、空、天之后的第五空间一样,数字主权将是继边防、海防、空防之后,另一个大国博弈的空间。
面对美国的新的挑战态势,世界各国哪能无动于衷?我国和欧盟等国家必将跟进,出台相应大数据政策。作为一个大国,如果大数据领域的落后,就意味着失守产业战略制高点,意味着数字主权无险可守,意味着国家安全将在数字空间出现漏洞。因此,不论是欧盟等大集团,还是我国必将出台对于科技和大型经济体的引导性、倾斜性的政策和措施,例如,我国高科技(863)、基础研究(973),核高基、重大政府工程包括互联网工程等,政府都必对这些领域和行业给于倾向性支持,大数据相关的高新科技和信息产业链部门,将迎来快速发展的良机。
应该看到,我国政府早就提出了“用好、管好互联网”,正是为了用好管好“大数据”,以确保我国的网络信息安全。
令人高兴的是,中国计算机学会闻风而动,2012年10月于成立了“大数据专家委员会(CCF Task Force on Big Data, 简称CCF TFBD)”, 其宗旨是,探讨大数据的核心科学与技术问题,推动大数据科学方向的建设与发展;构建面向大数据产学研用的学术交流、技术合作与数据共享平台,并对相关政府部门提供战略性的意见与建议。这个委员会成立适应了大数据时代的需要,可以坚信:CCF TFBD一定不辱使命,当担起我国大数据时代的责无旁贷的使命。我有幸作为一位特邀委员,将愿意积极配合支持其各项活动,共同努力,尽我一份应有的责任和义务。
有关专家分析指出:数据时代产业发展呈现三大发展趋势:第一,应用软件一定会泛互联网化。第二,行业会垂直整合。越靠近终端用户的公司,在产业链上将拥有更大的发言权。第三,数据将成为资产。我认为应该再加一个趋势:第四,科技创新和领域交叉越来越重要,作用越来越明显。这四大趋势都是围绕大数据展开的。泛互联网化是收集数据的重要渠道,没有泛互联网化的应用软件,公司就难以获得用户的行为数据;行业垂直整合数据运用层面,通过搜集大量的用户数据,更贴近用户,更理解用户,为其提供更适用的服务;数据成为资产更强调数据的战略意义。科技创新和交叉研究是社会经济发展的不竭力量和智慧源泉。
现在问题是,我们科学教育界,特别是,从学术角度来看,我国网络科学和复杂性科学等领域在大数据的驱动下,面临哪些挑战性问题?
二、“网络的网络”(NON)的若干挑战性问题
“网络的网络(NON)”是大量现实世界网络错综复杂的真实表现。NON的特点表现在:网络嵌套着网络,“你中有我,我中有你”,网络节点本身可能是一个复杂网络,具有多层次、多维性、多级性、多属性和多目标等特征。也就是说,实际上,NON基本上是具有自组织的各类网络的集成,也称为超网络。互联网、万维网、高科技网络、物联网、军用网等许多网络是NON的一些典型例子。虽然国内外目前还缺乏公认的超网络定义和普适的理论方法,整个课题尚处在探索阶段。但是,NON问题已经提到研究日程上来了。
令人可喜是,“大数据时代”出现了。但是,我深深感到,真正需要的大数据目前有时又很缺乏,或因保密不开放,或因竞争存在壁垒,或因技术问题等原因,迄今很难获得科研所需要的有关大数据。例如,我们原子能科学研究院网络小组,在探索国内外高科技超网络时,就遇到大数据难以获得,其他NON也同样存在类似大数据的瓶颈问题。 因此,从当前基本事实和特点出发,NON问题面临一系列的挑战性课题,这里就我的感触,略述若干课题:
挑战-1:如何收集、挖掘和处理“网络的网络”所具有的多层次、多目标、多维度和多极性相互作用的“诸多”的大数据,并能够实现完全开放使用。
挑战-2:基于大数据,探索和建立NON的统一理论体系及其在实际网络中的应用,是今后网络科学的一个崭新研究方向,它涉及最重要的NON基础问题,这方面课题研究开启网络科学研究的一个新里程。怎么探索诸多层次的错综复杂的网络?迄今国内外只提出具有2-3层的NON理论方法,缺乏多层次的MON的动态演化的理论分析方法,期望创立一个统一的“网络的网络”理论框架,任重道远。
挑战-3:基于实际超网络的大数据,需要引入一些新概念和新方法,揭开NON的演化特点和规律。需要提出对NON能够进行整体性能评估和刻画的新指标,例如,目前涉及层次之间能量差、功能差、流量差、交叉度等,随着研究的深入,需要提出分析、处理和计算NON的大数据方法,不仅需要挖掘,而且需要“反”挖掘。
挑战-4:考察“网络的网络”相互关联和节点耦合等因素的影响,探索NON的鲁棒性、脆弱性、级联效应、抗毁度等都是实际感兴趣的若干重要课题,怎么揭开具有多层次的NON的时空特性的“庐山真面目”?难点有待突破。
挑战-5:探索NON动力学涌现现象、完全同步和广义同步(部分或群同步)及其相关机制, NON的可控性、能观性及其控制方法都面临着更大的挑战。
三、面临《网络空间》的空前挑战
21世纪是一个网络信息时代,网络安全问题成为最突出的全球性问题之一,它不仅是一个纯技术性问题,而是与社会、政治、军事等紧密关联的错综复杂的综合安全问题。与各个国家及世界上每个人都息息相关。网络空间是主权国家在陆、海、空、天之外的“第五空间”,网络空间的出现,使国家安全涵盖的空间从传统的扩大到了“信息边疆”。网络信息传播突破了时空限制,已成为主权国家赖以正常运转的“神经系统”,对传统安全防范体系造成了严重冲击和空前挑战。
我理解,所谓“网络空间”是由部署在不同轨道、执行不同任务的多种类型的卫星,包括太空站,临近空间飞行器及相应地面系统和终端连接起来,并与传统地面有线和无线网络相融合的空天地一体化的一大类特殊性的多层次NON,是“网络战”包括 “网络中心战争”(Network——centric warfare,NCW)的主战场之一。例如,美国建立名为“梯队”的窃听系统,拥有120多个卫星网站,对全球进行窃听,“梯队”系统作为一个由美国操纵的情报网络收集海量大数据,进行分析,能够在全球范围内拦截以公众电话交换网络、卫星及微波通讯所传送的电话、传真、电子邮件和其他数字资讯等。
“网络中心战”是美军转型中于1998年提出来的,它是以网络科学作为指导思想,通过全球信息网格,把各分散的作战要素通过全球信息栅格实现网络化,共享战场态势感知,协调统一行动,将信息优势转变为行动优势充分发挥整体作战效能。从信息化作战中环节来看,NCW有九大核心系统,涉及到众多现代科技领域,与复杂网络密切相关,它们的大数据可谓庞大而神秘,重要性可想而知。
今年,美国炒作“中国黑客威胁论”,甚嚣尘上,旨在制造一场有计划、有目的、有组织的舆论战,以为其今后进行的“网络空间战”的进攻寻找借口。当前我国大多数黑客攻击来自美国。国际上一些发达国家随之紧跟,“网络空间战”也已提高到北约和澳大利亚等发达国家的战略。日本、法国、德国、印度等国家都已建成编制的网络战部队。我国面对国际上的严峻挑战,决不能等闲视!
总体形势严峻,但是网络空间的全面知识和新技术目前都非常缺乏,有的方面甚至还没有。美国自己就认为,网络中心战类似于当年美国的曼哈顿‘原子弹工程’、‘阿波罗’登月工程, 需要长期的、动员全国力量的创新”。因此,针对空前错综复杂的NON和网络空间,更需要基于大数据的创新驱动,竭力探索、建立和发展NON的新理论、新知识、新方法和新技术,揭开NON及其网络空间深层次的规律,为保障网络空间的安全提供理论和技术基础。
我国国家主席习近平于3月14日应约同美国总统奥巴马通电话时,就网络安全问题交换了意见,阐述了中方原则立场,表示当前网络安全问题日益突出,已成为各国普遍关切的综合安全挑战。维护网络空间的和平、安全、开放、合作,符合中美在内的国际社会共同利益。中方坚决反对任何形式的黑客活动。中方愿同美方以建设性方式就网络安全问题保持沟通。我国前任外交部长杨洁篪指出:“各国在网络空间是一个你中有我、我中有你的“命运共同体”,网络空间需要的不是战争,而是规则与合作。我们反对把网络空间变成另一个战场,把网络作为干涉别国内政的另一个工具。……中方一直倡导构建一个和平、安全、开放、合作的网络空间,主张在联合国框架内制定相关的国际规则,并提出了具体的倡议。”
大家知道,美国由于军事需要于1969年创造了互联网,在网络空间方面,具有绝对的主导地位和优势,美军是第一个谋划网络战的国家,也是第一个进行网络战的国家,他们这方面动作频频,网络战已经远超“把某某官方网站黑掉”的层次,而发展为通过互联网摧毁敌国电力、金融、通讯等国家关键基础设施网,并对军用作战指挥网虎视眈眈。美国别有用心制造中国网络威胁论就是为了增加网军的必要性和扩大经费的需要。
美国2009年成立网络司令部,属于战略司令部,安全局局长兼任网络司令部司令,业务上统一领导。司令部人员有937人,准备扩大到4900人.刚成立时经费是1.5亿美元,2013年增加到1.8万亿美元。2002年组建网络黑客部队以来,建有专门的黑客部队超10万人,并在全球范围内招募黑客精英为其服务。今年3月15日,美国网络战司令部司令亚历山大宣布,美军将新增40支网络部队。即使在美国国防经费减少的情况下,仍然不断增加“网军”的经费。
我国是全球网络发展最快的国家之一,同时也是遭受网络攻击最严重的国家之一。网络犯罪和网络恐怖主义的危害也在日益凸显。对许多国家安全稳定造成了严重威胁。
大数据时代来临之际,我们面临的挑战和机遇并存。需要用网络信息化提升我国驱动创新的能力,在网络科学与工程领域,以我愚见,我国需要大力加强基于大数据以下若干重点课题研究:
(1)开展NON及其网络空间的基本问题的研究,建立和发展“网络的网络”的新理论、新知识、新方法,提出能够满足网络空间应用要求和适应不同特点的安全解决方案和新技术;
(2)针对空间网络具有大数据、复杂性、异构性、开放性等特点,需要大力研发和突破空间网络的信息支撑技术,以实现大数据快速智能的信息获取、分析、传输、处理、分发和应用,为未来网络战、信息化战争提供理论和技术支撑;
(3)加强攻防结合的“网络武器(网武)”技术的研究,重视和加强包括下一代互联网技术与工程的研究,例如对离线攻击技术和无线注入进攻性“网武”技术等探索,确保我国网络攻防技术双全。
(4)大数据与网络空间安全、云计算和移动通信技术等之间存在密切的关联性,注意在这些结合点上加强综合应用研究与交流。
(5)我国科研需要的大数据与商业利益是一致的,虽然有所区分,但是学术界与企业界需要达成共认和平衡,政府要发挥应有的主导作用。不能因为商业巨大利益而忽视限制科研单位对大数据的迫切需求,而影响我国科学的深入探索。努力提升我国网络科学与工程领域在国际上的强大的竞争能力,提高我国大国的举足轻重的地位和广泛影响。
(6)努力提高我国网络科学与工程的驱动创新能力,助推中华振兴,实现科学强国的中国梦。
数据分析咨询请扫描二维码
《Python数据分析极简入门》 第2节 7 Pandas分组聚合 分组聚合(group by)顾名思义就是分2步: 先分组:根据某列数据的值进行 ...
2024-11-25数据分析需要学习的内容非常广泛,涵盖了从理论知识到实际技能的多个方面。以下是数据分析所需学习的主要内容: 数学和统计学 ...
2024-11-24数据分析师需要具备一系列多方面的技能和能力,以应对复杂的数据分析任务和业务需求。以下是数据分析师所需的主要能力: 统计 ...
2024-11-24数据分析师需要学习的课程内容非常广泛,涵盖了从基础理论到实际应用的多个方面。以下是根据我搜索到的资料整理出的数据分析师需 ...
2024-11-24《Python数据分析极简入门》 第2节 6 Pandas合并连接 在pandas中,有多种方法可以合并和拼接数据。常见的方法包括append()、conc ...
2024-11-24《Python数据分析极简入门》 第2节 5 Pandas数学计算 importpandasaspdd=np.array([[81,&n ...
2024-11-23数据分析涉及多个方面的学习,包括理论知识和实践技能。以下是数据分析需要学习的主要方面: 基础知识: 数据分析的基本概念 ...
2024-11-22数据分析适合在多个单位工作,包括但不限于以下领域: 金融行业:金融行业对数据分析人才的需求非常大,数据分析师可以从事经 ...
2024-11-22数据分析是一种涉及从大量数据中提取有用信息和洞察力的过程。其工作内容主要包括以下几个方面: 数据收集与整理:数据分析师 ...
2024-11-22数据分析师需要掌握多种技能,以确保能够有效地处理和分析数据,并为业务决策提供支持。以下是数据分析师需要掌握的主要技能: ...
2024-11-22数据开发和数据分析是两个密切相关但又有所区别的领域。以下是它们的主要区别: 定义和目标: 数据开发:数据开发涉及数据的 ...
2024-11-22数据架构师是负责设计和管理企业数据架构的关键角色,其职责涵盖了多个方面,包括数据治理、数据模型设计、数据仓库构建、数据安 ...
2024-11-22数据分析师需要具备一系列技能,以确保能够有效地处理、分析和解释数据,从而支持决策制定。以下是数据分析师所需的关键技能: ...
2024-11-22数据分析师需要具备一系列技能,以确保能够有效地处理、分析和解释数据,从而支持决策制定。以下是数据分析师所需的关键技能: ...
2024-11-22数据分析师需要具备一系列的技能和能力,以确保能够有效地处理、分析和解释数据,从而支持业务决策。以下是数据分析师所需的主要 ...
2024-11-22需求持续增长 - 未来数据分析师需求将持续上升,企业对数据驱动决策的依赖加深。 - 预测到2025年,中国将需要高达220万的数据人 ...
2024-11-22《Python数据分析极简入门》 第2节 4 Pandas条件查询 在pandas中,可以使用条件筛选来选择满足特定条件的数据 importpanda ...
2024-11-22数据分析师的工作内容涉及多个方面,主要包括数据的收集、整理、分析和可视化,以支持商业决策和问题解决。以下是数据分析师的一 ...
2024-11-21数据分析师必须掌握的技能可以从多个方面进行归纳和总结。以下是数据分析师需要具备的主要技能: 统计学基础:数据分析师需要 ...
2024-11-21数据分析入门的难易程度因人而异,总体来看,入门并不算特别困难,但需要一定的学习和实践积累。 入门难度:数据分析入门相对 ...
2024-11-21