探秘“气象大数据”
实况数据是气象学科发展的最基础数据,也是模式数据产生的源头。如果没有实况数据,计算机在运算“模式数据”时就少了初始值,即使是回归到没有计算机的人工预报时代,少了实况数据也无法进行天气预报。
有人说,在“大数据时代”这个概念出现前,最名副其实的大数据应该数气象数据。气象数据一贯以庞杂众多数据量大而著称,但无论气象数据多么复杂,总体可以分为两类:一类数据被称为“实况数据”,一类被称为“模式数据”。
简单来说,实况数据属于“一般过去时数据”,来自不同的观测设备。采集实况数据的气象站点遍布全球,观测范围从几千米的高空到地面,观测手段从高科技的雷达卫星到最原始的人工观测,这些数据的采集都是为了更真实地反映出地球外围大气圈的运动变化,而这些宝贵的数据也可以称之为天气预报之源。
模式数据与实况数据相比,可以说更简单也可以说更复杂。简单的是,这类数据仅由各类计算机的程序运算生成,属于预测未来的“一般将来时数据”;说它复杂则是因为计算量非常庞大,运用到的计算公式也异常复杂,为了更真实地模拟全球大气的走向,运算出的数据量也是十分惊人的!
下面,我们就一一来详细揭秘这两类“气象大数据”。
天气预报之源——实况数据
实况数据是气象学科发展的最基础数据,也是模式数据产生的源头。如果没有实况数据,计算机在运算“模式数据”时就少了初始值,即使是回归到没有计算机的人工预报时代,少了实况数据也无法进行天气预报。
那么,实况数据是如何采集的呢?
很多年前,实况数据的采集和传输工作大部分都要靠人力完成。气象观测员每天要定时记录百叶箱内的温度、湿度等,并通过打电话、发电报等方式将全国观测数据进行汇总。到今天为止,仍有很多发展中国家采用这种采集传输方式。
而随着科技的发展,在计算机、电子和通信技术高度发达的今天,实况数据的采集和传输技术也有了天翻地覆的变化。所有实况数据的采集和传输几乎都可以通过自动化完成,仅有少数几个项目需要人工参与,比如地面能见度观测、施放探空气球、卫星轨道控制等。
目前,在气象观测站中温度、湿度、气压、风向、风速等物理量均由电子控制的机械设备完成,这些观测站配有嵌入式芯片,芯片上有一个精确的时钟,可以准时地周期性工作,例如在整点每隔5分钟、10分钟或1小时自动采集周围的环境数据,并自动将采集的气象数据编码为二进制数据流,发送到数据库中。截至2015年年底,我国大约有50000多个这样的地面观测站,所有观测站均为自动站。
由气象观测站观测到的数据信息会首先在各省的气象台进行汇总,然后通过“质量控制”的环节,去掉或订正某些由于观测设备故障造成的错误数据,质量控制过程同样也是由计算机程序自动实现的。完成初步的质量控制后,各省就利用FTP文件传输的方式,将该省该时刻全部观测站点全部物理量数据打包为一个大文件,上传到位于北京的国家气象信息中心的通信台。
世界其他国家的观测数据的采集和传输也基本大同小异。除此以外,国与国之间也要进行实况数据的交换,而且必须是无偿交换。这是因为大气的运动是全球性的,仅仅依靠本国的实况数据无法做出准确的天气预报,因此,世界气象组织规定各国之间必须无偿提供气象观测资料。不过,有的时候出于信息保护或军事安全的考虑,并不会对外广播全部的观测站点数据。那么,每个国家需要义务提供多少站点信息,又以什么标准交换,都交换哪些观测项目,这些都由世界气象组织(WMO)制定和协调。
气象大数据之魂——模式数据
模式数据是由高性能计算机根据当前天气实况数据(包括地面、高空、卫星等)通过物理方程计算得出的。可以简单形象地认为,有这样一套庞大的计算天气预报的程序,输入当前已知的天气现象,就可以输出未来还没有发生的天气现象。计算出的天气预报结果通常以规则的等经纬度网格来表示,网格上的每一个点代表这个经纬度上未来某时刻某个物理量(比如温度)的数值。这就是现代天气预报业务的基础叫“数值模式预报”,而这个庞大的计算机程序就被称作“模式系统”。
所有的发达国家都有自己的一套用来演算天气情况的模式系统,有的国家甚至还具有不止一套的系统。模式系统一般每天计算2~4次,通常在整点开始,利用整点前采集到的实况数据进行计算,每次计算要生成大概几百个物理量,包括从开始计算的时刻(又称作“起报时刻”)至未来240小时时效(或更长)的一系列二进制网格数据,预报时效通常间隔3小时。目前气象网格经纬度间距一般在0.25度数量级,一个网格文件大小通常在1~2兆,包含几十万个浮点数值。
当模式的预报时效越长,时效间隔越密,网格点间距越小,网格点数值和未来实况差异越小,就证明该模式系统性能越好,该国气象水平越发达。由于模式预测的物理量多,每天还要多次起报,预报时效密集,模式种类繁多,模式数据必须至少存储一星期等要求,因此,在气象数据中,无论从数据个数还是数据存储量来说,模式数据是比重最大的“大数据”。
和实况数据不同的是,具备模式系统的国家通常没有义务向其他国家无偿提供本国的模式数据,或者最多无偿提供经过抽稀处理的粗粒度模式数据。想要得到发达国家的高质量模式数据,必须通过购买才可以。例如想要得到欧洲中心的0.125度细网格模式数据,无论中国气象局还是美国气象局都必须向欧洲中心支付高昂的年费,才能每天获得高质量的欧洲中心模式数据。
需要注意的是,这里购买的仅仅是模式系统最终的“输出”数据,而不是模式系统本身。因为模式系统水平的好坏代表了一个国家气象的硬实力,模式系统的源代码(通常是大量的Fortran程序)更是顶级领域技术机密,属于非卖品。
跨国模式数据也是利用FTP等方式进行传输,传输的格式一般是采用世界气象组织制定的一种称作GRIB编码的文件规范,这种文件比较适合描述模式数据。
气象数据如何传输
看完“实况数据”和“模式数据”的介绍,有没有觉得气象数据量大浩如烟海,这么多的数据都要一一传送到预报员手里,又需要多长时间呢?一般来说,地面、高空、雷达观测数据的采集和传输过程较快,从数据采集到可视化向预报员展示,通常几分钟时间就可以完成。也就是说,如果某地出现降雨天气,只要仪器能观测到,几分钟后位于气象台的预报员就会知道。
相对而言,静止气象卫星观测的时间稍长,中国的风云卫星一般需要20多分钟才能完成全球扫描,大概半小时后,预报员才能在电脑上看到卫星云图。
这里面模式数据传输最慢。以上午08时起报的欧洲中心模式系统为例,首先计算未来3小时(上午11时)的所有物理量,打包为1个GRIB文件并向其他国家传输,然后再计算未来6小时的数据,打包传输,直到最后完成10天后上午08时的预报数据计算并传输,每个预报时效的GRIB文件大概100多兆,计算一个预报时效大概需要几分钟时间,模式系统启动也需要很长时间,这样北京收到欧洲中心在早08时起报的第1个GRIB文件大概要到下午1时45分,完成最后一个240小时预报时效GRIB文件的接收要到下午3时。这样,如果要做早08时到下午3时的天气预报,只能使用前1个起报时刻的模式数据,比如前一天晚20时的模式数据。
在我国,国家气象信息中心通信台承担着数据传输和分发的枢纽作用。接收的数据包含来自各省的地面、高空、雷达数据、卫星数据、中国模式系统输出结果的数据以及其他国家的观测数据和模式数据。同时,还承担数据的发送功能,每天将各种观测数据和模式数据通过地面网络或通信卫星收发系统传送给31个省市区气象台和其他国家。
省一级的气象台只负责将本省的观测数据发送至国家气象信息中心,不进行其他数据的传送,同时接收来自国家气象信息中心分发的其他省的数据或各国模式系统数据。一般来说,由于国家到省级的网络传输需要较长时间,因此,国家级预报员在时间上将先于省级预报员查看到最新的气象数据。
预报员如何接收气象数据
解释完了数据是怎么进行传输和接收的,最后一个问题,一个个数据又是如何出现在预报员的计算机中?这其实是一套先进、复杂的大数据处理系统。
数据到达通信台后,首先兵分两路,地面、高空站点实况报文数据被转发至解报计算机,完成对于BUFR编码的解码,提取出报文中的站号、物理量值等信息,写入一个关系型数据库中作为缓存,然后通过每隔几分钟的定时作业,将同一观测时刻全部站点的物理量信息从关系型数据库中提取出来,制作为一个全国全部站点观测文件,写入到一个专供预报员客户端软件访问的高速存储服务器中。
另外一路大数据包括模式数据、卫星、雷达数据,这一类数据本身不是报文,不需要像站点实况数据那样先拼接再写入的过程,因此,通信台直接将这些数据发送给高速解析服务器,完成类似GRIB解码、卫星通道拆分等操作,解码后的结果一般是一些更小更多的文件,直接写入到和存储全国站点观测文件相同的高速存储服务器中,供预报员客户端软件访问。所有数据的解报、解码时间一般几秒钟即可完成。
中国的预报客户端称作“MICAPS”(全称气象信息综合分析处理系统),主要功能是将高速存储服务器中的所有气象数据进行可视化展示,并提供便捷的浏览和交互操作,预报员利用显示出来的模式数据和所有实况数据,结合自己的分析,在MICAPS上绘制出天气预报的最终结果,最后将预报结果出图和撰写成文字发送给发布部门,比如网站、报纸、电视台等。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
Excel是数据分析的重要工具,强大的内置功能使其成为许多分析师的首选。在日常工作中,启用Excel的数据分析工具库能够显著提升数 ...
2024-12-23在当今信息爆炸的时代,数据分析师如同一位现代社会的侦探,肩负着从海量数据中提炼出有价值信息的重任。在这个过程中,掌握一系 ...
2024-12-23在现代的职场中,制作吸引人的PPT已经成为展示信息的重要手段,而其中数据对比的有效呈现尤为关键。为了让数据在幻灯片上不仅准 ...
2024-12-23在信息泛滥的现代社会,数据分析师已成为企业决策过程中不可或缺的角色。他们的任务是从海量数据中提取有价值的洞察,帮助组织制 ...
2024-12-23在数据驱动时代,数据分析已成为各行各业的必需技能。无论是提升个人能力还是推动职业发展,选择一条适合自己的学习路线至关重要 ...
2024-12-23在准备数据分析师面试时,掌握高频考题及其解答是应对面试的关键。为了帮助大家轻松上岸,以下是10个高频考题及其详细解析,外加 ...
2024-12-20互联网数据分析师是一个热门且综合性的职业,他们通过数据挖掘和分析,为企业的业务决策和运营优化提供强有力的支持。尤其在如今 ...
2024-12-20在现代商业环境中,数据分析师是不可或缺的角色。他们的工作不仅仅是对数据进行深入分析,更是协助企业从复杂的数据信息中提炼出 ...
2024-12-20随着大数据时代的到来,数据驱动的决策方式开始受到越来越多企业的青睐。近年来,数据分析在人力资源管理中正在扮演着至关重要的 ...
2024-12-20在数据分析的世界里,表面上的技术操作只是“入门票”,而真正的高手则需要打破一些“看不见的墙”。这些“隐形天花板”限制了数 ...
2024-12-19在数据分析领域,尽管行业前景广阔、岗位需求旺盛,但实际的工作难度却远超很多人的想象。很多新手初入数据分析岗位时,常常被各 ...
2024-12-19入门数据分析,许多人都会感到“难”,但这“难”究竟难在哪儿?对于新手而言,往往不是技术不行,而是思维方式、业务理解和实践 ...
2024-12-19在如今的行业动荡背景下,数据分析师的职业前景虽然面临一些挑战,但也充满了许多新的机会。随着技术的不断发展和多领域需求的提 ...
2024-12-19在信息爆炸的时代,数据分析师如同探险家,在浩瀚的数据海洋中寻觅有价值的宝藏。这不仅需要技术上的过硬实力,还需要一种艺术家 ...
2024-12-19在当今信息化社会,大数据已成为各行各业不可或缺的宝贵资源。大数据专业应运而生,旨在培养具备扎实理论基础和实践能力,能够应 ...
2024-12-19阿里P8、P9失业都找不到工作?是我们孤陋寡闻还是世界真的已经“癫”成这样了? 案例一:本硕都是 985,所学的专业也是当红专业 ...
2024-12-19CDA持证人Louis CDA持证人基本情况 我大学是在一个二线城市的一所普通二本院校读的,专业是旅游管理,非计算机非统计学。毕业之 ...
2024-12-18最近,知乎上有个很火的话题:“一个人为何会陷入社会底层”? 有人说,这个世界上只有一个分水岭,就是“羊水”;还有人说,一 ...
2024-12-18在这个数据驱动的时代,数据分析师的技能需求快速增长。掌握适当的编程语言不仅能增强分析能力,还能帮助分析师从海量数据中提取 ...
2024-12-17在当今信息爆炸的时代,数据分析已经成为许多行业中不可或缺的一部分。想要在这个领域脱颖而出,除了热情和毅力外,你还需要掌握 ...
2024-12-17