大数据,这样采这样用_数据分析师培训
虽然大数据早已不是什么新鲜词,而且大家都能说上两句自己心中大数据的模样,可一旦细究起来,到底什么是大数据,大数据从何而来,如何应用,相信不少人就说不清楚了。
由东北大学、沈阳市政府及战略投资者共同投资成立的东北大学东网科技有限公司,其超算中心和云计算中心拥有1170万亿次/秒计算能力、30PB云存储空间。目前,东网科技与沈阳市环保局合作,正在通过大数据技术开展大气环境监测预报。怀揣着对大数据的好奇,记者走访了这家公司。
获取10%的信息量,预测剩余90%,这是小数据;而掌握90%的信息量,预测余下的,则是大数据
在一片尚未平整完毕的荒野中,矗立着一座极具现代科技感的建筑物:深蓝色的圆形玻璃幕墙、航空级别的安保设施。此种场景,和美国科幻大片中看到的场景倒有几分相似。
经过一系列安保检查,记者得以进入东网科技的超算中心和云计算中心,一台台超过2米的黑色机柜密密麻麻地排列在机房中。“左手边是超级计算机,右手边是云存储器”,东网科技工作人员许冕介绍说。
这和大数据有什么关系?“超算能力和云存储就相当于大数据的大脑,是大数据必备的硬件条件”,东网科技总经理杨宝卫打了个比喻。对于东网科技拥有的1170万亿次/秒的超算能力,杨宝卫说,这在目前国内的超级计算机中名列前茅,而30PB则是一个存储容量,相当于约50万个容量为64GB智能手机存储容量总和。
那到底什么是大数据?从网络上查询,答案五花八门。“针对某一事物,如果了解了10%的信息量,预测剩余的90%,这是小数据,需要抽样然后概率分析;而掌握80%—90%的信息量,预测余下的10%—20%,则是大数据。也就是说,大数据是对某一事物的样本空间的覆盖,通过智能分析,对事物进行预测预报”,杨宝卫试图用最简单的话来说明他所理解的大数据。
对于大数据,杨宝卫趣称为“经验主义的复活”。过去我们是通过观察和经验,经过大脑的分析总结后,指导人类活动,比如一些天象的观察等。后来,人类发展到一定阶段后,信息越来越多,人脑计算不过来,就发明了电脑来帮助处理信息。现在的超算就能够帮助处理更多的信息,而大数据下的超算,就是通过大量可信赖样本提供的经验,对复杂事件进行计算和预测。
天气预报就是个直观的例子。人类能够进行天气预报,是因为一个事物通过足够的数据完全可以在数字世界里进行虚拟的演化。那么对天气预报来说,我们把今天的天气数据放到电脑里,在虚拟世界里模拟天气的变化。或许超算只需要10分钟,就可以预测某地3天后的天气状况。
大数据技术包括数据采集—传输—集中存储—再处理—再应用等过程,其中采集是关键
大数据来自何方,通过什么途径我们可以获取这些数据?不少人直观的感受是:数据主要来自于互联网。
杨宝卫认为,获取数据目前有三个渠道:第一,来自于互联网的数据。比如阿里巴巴的交易数据、百度的查询数据、腾讯的交流沟通数据,“这些还都是外围的”。
第二,来源于政府的数据。这才是真正的核心数据。比如经济运行数据、人口数据、地理数据、政府服务数据、公共服务数据。
第三,对原有世界的数据再次采集,这源于我们更多更先进的技术手段采集到更多的数据,这就是如日中天的物联网。我们要让每一个物体都是传感器,时刻在回传数据,物联网的发展会极大地丰富数据。
然而,大数据真正的核心数据——政府所掌握的数据目前大多都处于“死机”状态,如何激活还有待探索。业内许多专家呼吁,在保证信息安全的基础上,政府可开放一些并不敏感的数据,实行数据的可交易、资产化,据了解,上海已经开始建设数据交易所。
杨宝卫认为,大数据技术包括数据的采集—传输—集中存储—再处理—再应用等一系列过程。其中,数据的采集是关键。
“大数据并不是今天做,明天就有,它是台阶式的发展。我们目前就在某些领域里进行数据收集和智能分析,让它能够预测预报”,杨宝卫介绍说,比如目前中心与沈阳、本溪合作建设智慧城市,就是把一些相关信息进行集中,同时中心还从事互联网的一些商业应用。这些都是数据的采集和集中。
采集之后,就是传输环节,如何能够快速地传输?这涉及运营商、基础设施通讯等方面。接下来是数据存储环节,也就是云计算中心的价值所在。然后是数据的处理和再处理,这就要用到超算。最后就是数据的再应用,这是各个软件公司、信息服务公司要做的事情。
随着在医疗、环保、航空等更多领域的广泛应用,大数据将实实在在地改变人们的日常生活
业内专家认为,如果把大数据比作一种产业,那么这个产业实现盈利的关键,在于对数据的高加工能力,通过加工实现数据的增值。简单地说,就是大数据要实现高效应用。
“目前,东网科技已经在大数据应用方面做出努力和尝试”,据介绍,针对雾霾天气,东网科技公司自2013年10月起就与沈阳市携手创建了“环保云”。东网公司与沈阳市环保局就空间信息需求对接,为PM2.5监测治理提供解决方案。公司首先启动了沈阳市市辖区未来三天大气污染状况预报项目,利用自主研发的大气成分反演模型和遥感数据处理软件,进行沈阳市冬季供暖期大气环境监测预报,为排放管控和污染治理提供科学手段。
“大数据技术可以促进医疗、环保、教育等民生问题的解决”,杨宝卫说,随着大数据技术的进一步完善,其应用必将给人们的生活带来实实在在的改变。“给早产儿戴上传感器,可以分分秒秒收集他(她)身上的海量个人生理信息,通过数据分析就能找到这个婴儿在将来出现感染的几率从而及早预防;收集飞机飞行时的空气信息,以实现飞机的自动飞行。”这些场景都将逐步实现。城市将更聪明,生活将更智慧。
据介绍,基于大数据技术,还可模拟基因的演化,药厂也可以用计算机进行成千上万的病例与药物的作用演化。水稻种植实验,一个品种在种下去一年后,才能看得到结果。未来只要把基因数据放入计算机,很快就能看到结果,这样可以大大加快科研进程。
大数据技术的发展也引发了人们对于信息和隐私安全问题的担忧。杨宝卫对此持乐观态度:通过发展技术、加强管理、完善法律等多方面的努力,问题将逐步得到解决。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
CDA持证人简介 刘伟,美国 NAU 大学计算机信息技术硕士, CDA数据分析师三级持证人,现任职于江苏宝应农商银行数据治理岗。 学 ...
2025-04-21持证人简介:贺渲雯 ,CDA 数据分析师一级持证人,互联网行业数据分析师 今天我将为大家带来一个关于用户私域用户质量数据分析 ...
2025-04-18一、CDA持证人介绍 在数字化浪潮席卷商业领域的当下,数据分析已成为企业发展的关键驱动力。为助力大家深入了解数据分析在电商行 ...
2025-04-17CDA持证人简介:居瑜 ,CDA一级持证人,国企财务经理,13年财务管理运营经验,在数据分析实践方面积累了丰富的行业经验。 一、 ...
2025-04-16持证人简介: CDA持证人刘凌峰,CDA L1持证人,微软认证讲师(MCT)金山办公最有价值专家(KVP),工信部高级项目管理师,拥有 ...
2025-04-15持证人简介:CDA持证人黄葛英,ICF国际教练联盟认证教练,前字节跳动销售主管,拥有丰富的行业经验。在实际生活中,我们可能会 ...
2025-04-14在 Python 编程学习与实践中,Anaconda 是一款极为重要的工具。它作为一个开源的 Python 发行版本,集成了众多常用的科学计算库 ...
2025-04-14随着大数据时代的深入发展,数据运营成为企业不可或缺的岗位之一。这个职位的核心是通过收集、整理和分析数据,帮助企业做出科 ...
2025-04-11持证人简介:CDA持证人黄葛英,ICF国际教练联盟认证教练,前字节跳动销售主管,拥有丰富的行业经验。 本次分享我将以教培行业为 ...
2025-04-11近日《2025中国城市长租市场发展蓝皮书》(下称《蓝皮书》)正式发布。《蓝皮书》指出,当前我国城市住房正经历从“增量扩张”向 ...
2025-04-10在数字化时代的浪潮中,数据已经成为企业决策和运营的核心。每一位客户,每一次交易,都承载着丰富的信息和价值。 如何在海量客 ...
2025-04-09数据是数字化的基础。随着工业4.0的推进,企业生产运作过程中的在线数据变得更加丰富;而互联网、新零售等C端应用的丰富多彩,产 ...
2025-04-094月7日,美国关税政策对全球金融市场的冲击仍在肆虐,周一亚市早盘,美股股指、原油期货、加密货币、贵金属等资产齐齐重挫,市场 ...
2025-04-08背景 3月26日,科技圈迎来一则重磅消息,苹果公司宣布向浙江大学捐赠 3000 万元人民币,用于支持编程教育。 这一举措并非偶然, ...
2025-04-07在当今数据驱动的时代,数据分析能力备受青睐,数据分析能力频繁出现在岗位需求的描述中,不分岗位的任职要求中,会特意标出“熟 ...
2025-04-03在当今数字化时代,数据分析师的重要性与日俱增。但许多人在踏上这条职业道路时,往往充满疑惑: 如何成为一名数据分析师?成为 ...
2025-04-02最近我发现一个绝招,用DeepSeek AI处理Excel数据简直太爽了!处理速度嘎嘎快! 平常一整天的表格处理工作,现在只要三步就能搞 ...
2025-04-01你是否被统计学复杂的理论和晦涩的公式劝退过?别担心,“山有木兮:统计学极简入门(Python)” 将为你一一化解这些难题。课程 ...
2025-03-31在电商、零售、甚至内容付费业务中,你真的了解你的客户吗? 有些客户下了一两次单就消失了,有些人每个月都回购,有些人曾经是 ...
2025-03-31在数字化浪潮中,数据驱动决策已成为企业发展的核心竞争力,数据分析人才的需求持续飙升。世界经济论坛发布的《未来就业报告》, ...
2025-03-28