京公网安备 11010802034615号
经营许可证编号:京B2-20210330
关于GIS和Esri
我们每天都在提出这样一些问题:农田中的土壤有哪些特征?下一个服装店应该开在什么地方?货物如何才能最快的送到客户手中?如何找到离我的新家最近的超市?要回答这样一些问题,需要访问具有多维(x,y,z坐标和时序)、大容量和高处理费用的地理空间信息。

地理信息系统(Geographic InformationSystem,GIS)是用于回答地理学问题问题的艺术、科学、工程和技术的统称,是一种特定的十分重要的空间信息系统。它是在计算机硬、软件系统支持下,对整个或部分地球表层(包括大气层)空间中的有关地理分布数据进行采集、储存、管理、运算、分析、显示和描述的技术系统。
美国环境系统研究所公司(Environmental SystemsResearch Institute, Inc. 简称Esri)成立于1969年,多年来,Esri公司始终将GIS视为一门科学,并坚持运用独特的科学思维和方法,紧跟IT主流技术,开发出丰富而完整的产品线。公司致力于为全球各行业的用户提供先进的GIS技术和全面的GIS解决方案。Esri其多层次、可扩展,功能强大、开放性强的ArcGIS解决方案已经迅速成为提高政府部门和企业服务水平的重要工具。
空间信息
地球本身构成了世界上最基础的信息。人和事物的地理定位是信息的主要组成部分。1978年全球定位系统(GPS)的正式构成,让我们无论是汽车上的导航设备还是自能手机,都可以快速、廉价的进行地理定位。定位时时刻刻都在生成信息,这些位置信息构成了庞大的地理数据。这些数据越来越多的被用在各种分析上面,如无线运营商通过收集和分析这些数据来提升移动互联网的服务水平。交通部门通过这些信息来预测交通情况。
通过地理的手段来分析空间位置的相关信息,来揭示相关的模式与关联信息,在大数据的背景下,是GIS界新前沿、新发展和新机遇。
空间数据是一种特殊结构的信息,要对空间数据进行分析,就需要了解空间数据的特性和运作方式。如何启用hadoop来对空间数据进行分析,是Esri在大数据上一直为之努力的目标。
ArcGIS与Hadoop
随着ArcGIS 10.2版本的发布,一同推出的开源工具包GIS Tools for Hadoop,完美的诠释了海量空间数据与分布式运算的结合。
GIS Tools for Hadoop 是一个开源的工具包,它定义和构建了一整套空间分析的环境,在GIS与hadoop之间搭建起了一个桥梁。
从20世纪60年代至今,GIS已经迅速发展成了一个独特的研究与应用领域,并形成一个全球性的重要行业。
Esri这些年来,一直致力于研究GIS信息与数据的标准化,推出了ArcSDE这样的空间数据引擎,让空间数据与关系型数据库之间搭起了一个通路,可以让空间数据保存在主流的商业数据库中,使用每种DBMS所支持的标准SQL类型来管理数据,并且支持所有的空间数据类型(包括要素、栅格、拓扑、网络、地形、测量数据、表格数据,以及位置数据,例如地址、模型和元数据),而无需用户考虑DBMS的底层实现。
但是,空间数据更多的是像影像、TIN(Triangulated IrregularNetwork)这样的非结构化数据,而数据库中的查询语言,正如其名称的简写——SQL,就显示了它的僵化。所以急需新的,非关系型、非结构化的数据库和数据分析方法的出现。
Hadoop以其高可靠性、高扩展性、高效性和高容错性,特别是在海量的非结构化或者半结构化数据上的分析处理优势,给我们提供了另外一种思路。 Hadoop的核心算法就是“分而治之”,这个与GIS里面很多算法是相通的,GIS里面很多应用场景都是要去分析不同区域内的各种信息,把这样的计算放到Hadoop上,正好利用了Hadoop的分布式计算特性。特别是一直让GIS界最头痛的海量影像数据存储和数据分析,在Hadoop的分布式存储和分布式运算架构上,更是能够体现出Hadoop在GIS应用上的优势。
当我们数据量不够的时候,我们需要设计一套很复杂的算法,在样本数据中去探寻其中的规律,而且还要使用各种手段来保证数据的准确无误,但是当数据量足够大的时候,往往只需要一些很简单的算法就可以从海量的数据中得到满意的结果了。但是限于技术手段,特别是空间分析对计算资源的消耗,我们以前根本做不到基于如此庞大数据的分析。而放在hadoop上,可以利用Hadoop强大的分布式分析功能,来处理和分析更多的数据集。
比如在出租车辆定位的研究中,GPS数据每个1秒钟就将记录一条信息,信息的内容包括经纬度、海拔、时间、车速、方向等等,每辆车每天生成的数据量就高达8万多条,北京市的目前有出租车约为7万辆,也就是说每天生成GPS数据就高达60亿条记录。如果把这个信息的收集范围扩展到全国,年复一年,日复一日,那么收集上来的数据,将远远超出人们的想象。
这些数据如同地下的金矿,等着我们去发掘,有了这些数据,利用空间分析的方法,我们就可以计算出很多有意义的结果。如用户可以知道,在各种时段中,在何处打车最容易?出租车司机们可以知道在什么地方趴活最容易拉到客户,而保证最省油。运营公司可以知道在不同时间段出租车运营数量最少的区域,进行调整合理分配资源;交通部门可以根据出租车的时速来得到各道路的交通情况等等。
计算机和软件的处理是有限的,当数据量到达一定极限的时候,常规的手段就对这些庞大的数据无能为力了。这样就需要有新的技术来实现这种突破,以转变我们的处理手段。最能代表这种转变的,就是Hadoop的流行。
而GIS Tools for Hadoop的发布,让hadoop正式登上了空间分析的舞台。
目前GIS Tools for Hadoop只是迈出了小小的一步,实现了包括相交、包含、缓冲等常用的空间分析功能,并且与ArcGIS产品无缝的集成,可以在ArcGIS for Desktop中直接调用,并且将结果以空间信息的方式展现出来。但是还仅仅是开始,未来我们还期待着能够解决更多的问题,如GIS界最头疼的地图缓存切片生成和存储的问题、海量遥感影像的计算、大规模批空间插值、海量空间数据聚合、空间数据处理等等。
GIS Tools for Hadoop的发布表现了Esri始终关注IT界的热点技术,并努力为不同行业用户提供更多专业的支持。同时也是ArcGIS平台集成大数据一次很好的尝试。这个工具解决了Esri在大数据应用方面从无到有的问题,有着重要的意义。GIS Tools for Hadoop在未来还有很大的发展空间,期待在后面的版本中会增加对影像数据的支持,这样对GIS行业来说将有更加重要的应用。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
机器学习的本质,是让模型通过对数据的学习,自主挖掘规律、实现预测与决策,而这一过程的核心驱动力,并非单一参数的独立作用, ...
2026-03-27在SQL Server数据库操作中,日期时间处理是高频核心需求——无论是报表统计中的日期格式化、数据筛选时的日期类型匹配,还是业务 ...
2026-03-27在CDA(Certified Data Analyst)数据分析师的能力体系与职场实操中,高维数据处理是高频且核心的痛点——随着业务场景的复杂化 ...
2026-03-27在机器学习建模与数据分析实战中,特征维度爆炸、冗余信息干扰、模型泛化能力差是高频痛点。面对用户画像、企业经营、医疗检测、 ...
2026-03-26在这个数据无处不在的时代,数据分析能力已不再是数据从业者的专属技能,而是成为了职场人、管理者、创业者乃至个人发展的核心竞 ...
2026-03-26在CDA(Certified Data Analyst)数据分析师的能力体系中,线性回归是连接描述性统计与预测性分析的关键桥梁,也是CDA二级认证的 ...
2026-03-26在数据分析、市场研究、用户画像构建、学术研究等场景中,我们常常会遇到多维度、多指标的数据难题:比如调研用户消费行为时,收 ...
2026-03-25在流量红利见顶、获客成本持续攀升的当下,营销正从“广撒网”的经验主义,转向“精耕细作”的数据驱动主义。数据不再是营销的辅 ...
2026-03-25在CDA(Certified Data Analyst)数据分析师的全流程工作中,无论是前期的数据探索、影响因素排查,还是中期的特征筛选、模型搭 ...
2026-03-25在当下数据驱动决策的职场环境中,A/B测试早已成为互联网产品、运营、营销乃至产品迭代优化的核心手段,小到一个按钮的颜色、文 ...
2026-03-24在统计学数据分析中,尤其是分类数据的分析场景里,卡方检验和显著性检验是两个高频出现的概念,很多初学者甚至有一定统计基础的 ...
2026-03-24在CDA(Certified Data Analyst)数据分析师的日常业务分析与统计建模工作中,多组数据差异对比是高频且核心的分析场景。比如验 ...
2026-03-24日常用Excel做数据管理、台账维护、报表整理时,添加备注列是高频操作——用来标注异常、说明业务背景、记录处理进度、补充关键 ...
2026-03-23作为业内主流的自助式数据可视化工具,Tableau凭借拖拽式操作、强大的数据联动能力、灵活的仪表板搭建,成为数据分析师、业务人 ...
2026-03-23在CDA(Certified Data Analyst)数据分析师的日常工作与认证考核中,分类变量的关联分析是高频核心场景。用户性别是否影响商品 ...
2026-03-23在数据工作的全流程中,数据清洗是最基础、最耗时,同时也是最关键的核心环节,无论后续是做常规数据分析、可视化报表,还是开展 ...
2026-03-20在大数据与数据驱动决策的当下,“数据分析”与“数据挖掘”是高频出现的两个核心概念,也是很多职场人、入门学习者容易混淆的术 ...
2026-03-20在CDA(Certified Data Analyst)数据分析师的全流程工作闭环中,统计制图是连接严谨统计分析与高效业务沟通的关键纽带,更是CDA ...
2026-03-20在MySQL数据库优化中,分区表是处理海量数据的核心手段——通过将大表按分区键(如时间、地域、ID范围)分割为多个独立的小分区 ...
2026-03-19在商业智能与数据可视化领域,同比、环比增长率是分析数据变化趋势的核心指标——同比(YoY)聚焦“长期趋势”,通过当前周期与 ...
2026-03-19