大数据,这样采这样用_数据分析师培训
虽然大数据早已不是什么新鲜词,而且大家都能说上两句自己心中大数据的模样,可一旦细究起来,到底什么是大数据,大数据从何而来,如何应用,相信不少人就说不清楚了。
由东北大学、沈阳市政府及战略投资者共同投资成立的东北大学东网科技有限公司,其超算中心和云计算中心拥有1170万亿次/秒计算能力、30PB云存储空间。目前,东网科技与沈阳市环保局合作,正在通过大数据技术开展大气环境监测预报。怀揣着对大数据的好奇,记者走访了这家公司。
获取10%的信息量,预测剩余90%,这是小数据;而掌握90%的信息量,预测余下的,则是大数据
在一片尚未平整完毕的荒野中,矗立着一座极具现代科技感的建筑物:深蓝色的圆形玻璃幕墙、航空级别的安保设施。此种场景,和美国科幻大片中看到的场景倒有几分相似。
经过一系列安保检查,记者得以进入东网科技的超算中心和云计算中心,一台台超过2米的黑色机柜密密麻麻地排列在机房中。“左手边是超级计算机,右手边是云存储器”,东网科技工作人员许冕介绍说。
这和大数据有什么关系?“超算能力和云存储就相当于大数据的大脑,是大数据必备的硬件条件”,东网科技总经理杨宝卫打了个比喻。对于东网科技拥有的1170万亿次/秒的超算能力,杨宝卫说,这在目前国内的超级计算机中名列前茅,而30PB则是一个存储容量,相当于约50万个容量为64GB智能手机存储容量总和。
那到底什么是大数据?从网络上查询,答案五花八门。“针对某一事物,如果了解了10%的信息量,预测剩余的90%,这是小数据,需要抽样然后概率分析;而掌握80%—90%的信息量,预测余下的10%—20%,则是大数据。也就是说,大数据是对某一事物的样本空间的覆盖,通过智能分析,对事物进行预测预报”,杨宝卫试图用最简单的话来说明他所理解的大数据。
对于大数据,杨宝卫趣称为“经验主义的复活”。过去我们是通过观察和经验,经过大脑的分析总结后,指导人类活动,比如一些天象的观察等。后来,人类发展到一定阶段后,信息越来越多,人脑计算不过来,就发明了电脑来帮助处理信息。现在的超算就能够帮助处理更多的信息,而大数据下的超算,就是通过大量可信赖样本提供的经验,对复杂事件进行计算和预测。
天气预报就是个直观的例子。人类能够进行天气预报,是因为一个事物通过足够的数据完全可以在数字世界里进行虚拟的演化。那么对天气预报来说,我们把今天的天气数据放到电脑里,在虚拟世界里模拟天气的变化。或许超算只需要10分钟,就可以预测某地3天后的天气状况。
大数据技术包括数据采集—传输—集中存储—再处理—再应用等过程,其中采集是关键
大数据来自何方,通过什么途径我们可以获取这些数据?不少人直观的感受是:数据主要来自于互联网。
杨宝卫认为,获取数据目前有三个渠道:第一,来自于互联网的数据。比如阿里巴巴的交易数据、百度的查询数据、腾讯的交流沟通数据,“这些还都是外围的”。
第二,来源于政府的数据。这才是真正的核心数据。比如经济运行数据、人口数据、地理数据、政府服务数据、公共服务数据。
第三,对原有世界的数据再次采集,这源于我们更多更先进的技术手段采集到更多的数据,这就是如日中天的物联网。我们要让每一个物体都是传感器,时刻在回传数据,物联网的发展会极大地丰富数据。
然而,大数据真正的核心数据——政府所掌握的数据目前大多都处于“死机”状态,如何激活还有待探索。业内许多专家呼吁,在保证信息安全的基础上,政府可开放一些并不敏感的数据,实行数据的可交易、资产化,据了解,上海已经开始建设数据交易所。
杨宝卫认为,大数据技术包括数据的采集—传输—集中存储—再处理—再应用等一系列过程。其中,数据的采集是关键。
“大数据并不是今天做,明天就有,它是台阶式的发展。我们目前就在某些领域里进行数据收集和智能分析,让它能够预测预报”,杨宝卫介绍说,比如目前中心与沈阳、本溪合作建设智慧城市,就是把一些相关信息进行集中,同时中心还从事互联网的一些商业应用。这些都是数据的采集和集中。
采集之后,就是传输环节,如何能够快速地传输?这涉及运营商、基础设施通讯等方面。接下来是数据存储环节,也就是云计算中心的价值所在。然后是数据的处理和再处理,这就要用到超算。最后就是数据的再应用,这是各个软件公司、信息服务公司要做的事情。
随着在医疗、环保、航空等更多领域的广泛应用,大数据将实实在在地改变人们的日常生活
业内专家认为,如果把大数据比作一种产业,那么这个产业实现盈利的关键,在于对数据的高加工能力,通过加工实现数据的增值。简单地说,就是大数据要实现高效应用。
“目前,东网科技已经在大数据应用方面做出努力和尝试”,据介绍,针对雾霾天气,东网科技公司自2013年10月起就与沈阳市携手创建了“环保云”。东网公司与沈阳市环保局就空间信息需求对接,为PM2.5监测治理提供解决方案。公司首先启动了沈阳市市辖区未来三天大气污染状况预报项目,利用自主研发的大气成分反演模型和遥感数据处理软件,进行沈阳市冬季供暖期大气环境监测预报,为排放管控和污染治理提供科学手段。
“大数据技术可以促进医疗、环保、教育等民生问题的解决”,杨宝卫说,随着大数据技术的进一步完善,其应用必将给人们的生活带来实实在在的改变。“给早产儿戴上传感器,可以分分秒秒收集他(她)身上的海量个人生理信息,通过数据分析就能找到这个婴儿在将来出现感染的几率从而及早预防;收集飞机飞行时的空气信息,以实现飞机的自动飞行。”这些场景都将逐步实现。城市将更聪明,生活将更智慧。
据介绍,基于大数据技术,还可模拟基因的演化,药厂也可以用计算机进行成千上万的病例与药物的作用演化。水稻种植实验,一个品种在种下去一年后,才能看得到结果。未来只要把基因数据放入计算机,很快就能看到结果,这样可以大大加快科研进程。
大数据技术的发展也引发了人们对于信息和隐私安全问题的担忧。杨宝卫对此持乐观态度:通过发展技术、加强管理、完善法律等多方面的努力,问题将逐步得到解决。
数据分析咨询请扫描二维码
数据分析需要学习的内容非常广泛,涵盖了从理论知识到实际技能的多个方面。以下是数据分析所需学习的主要内容: 数学和统计学 ...
2024-11-24数据分析师需要具备一系列多方面的技能和能力,以应对复杂的数据分析任务和业务需求。以下是数据分析师所需的主要能力: 统计 ...
2024-11-24数据分析师需要学习的课程内容非常广泛,涵盖了从基础理论到实际应用的多个方面。以下是根据我搜索到的资料整理出的数据分析师需 ...
2024-11-24《Python数据分析极简入门》 第2节 6 Pandas合并连接 在pandas中,有多种方法可以合并和拼接数据。常见的方法包括append()、conc ...
2024-11-24《Python数据分析极简入门》 第2节 5 Pandas数学计算 importpandasaspdd=np.array([[81,&n ...
2024-11-23数据分析涉及多个方面的学习,包括理论知识和实践技能。以下是数据分析需要学习的主要方面: 基础知识: 数据分析的基本概念 ...
2024-11-22数据分析适合在多个单位工作,包括但不限于以下领域: 金融行业:金融行业对数据分析人才的需求非常大,数据分析师可以从事经 ...
2024-11-22数据分析是一种涉及从大量数据中提取有用信息和洞察力的过程。其工作内容主要包括以下几个方面: 数据收集与整理:数据分析师 ...
2024-11-22数据分析师需要掌握多种技能,以确保能够有效地处理和分析数据,并为业务决策提供支持。以下是数据分析师需要掌握的主要技能: ...
2024-11-22数据开发和数据分析是两个密切相关但又有所区别的领域。以下是它们的主要区别: 定义和目标: 数据开发:数据开发涉及数据的 ...
2024-11-22数据架构师是负责设计和管理企业数据架构的关键角色,其职责涵盖了多个方面,包括数据治理、数据模型设计、数据仓库构建、数据安 ...
2024-11-22数据分析师需要具备一系列技能,以确保能够有效地处理、分析和解释数据,从而支持决策制定。以下是数据分析师所需的关键技能: ...
2024-11-22数据分析师需要具备一系列技能,以确保能够有效地处理、分析和解释数据,从而支持决策制定。以下是数据分析师所需的关键技能: ...
2024-11-22数据分析师需要具备一系列的技能和能力,以确保能够有效地处理、分析和解释数据,从而支持业务决策。以下是数据分析师所需的主要 ...
2024-11-22需求持续增长 - 未来数据分析师需求将持续上升,企业对数据驱动决策的依赖加深。 - 预测到2025年,中国将需要高达220万的数据人 ...
2024-11-22《Python数据分析极简入门》 第2节 4 Pandas条件查询 在pandas中,可以使用条件筛选来选择满足特定条件的数据 importpanda ...
2024-11-22数据分析师的工作内容涉及多个方面,主要包括数据的收集、整理、分析和可视化,以支持商业决策和问题解决。以下是数据分析师的一 ...
2024-11-21数据分析师必须掌握的技能可以从多个方面进行归纳和总结。以下是数据分析师需要具备的主要技能: 统计学基础:数据分析师需要 ...
2024-11-21数据分析入门的难易程度因人而异,总体来看,入门并不算特别困难,但需要一定的学习和实践积累。 入门难度:数据分析入门相对 ...
2024-11-21数据分析是一项通过收集、整理和解释数据来发现有用信息的过程,它在现代社会中具有广泛的应用和重要性。数据分析能够帮助人们更 ...
2024-11-21