关于大数据的实战技术
大数据范围越来越广,随着不同应用的爆发式增长,数据分析正在被更多行业企业所知晓并实践,比如互联网、金融、零售、医疗、以及制造业等。与此同时,对于统计分析系统应用的争论,也随着应用与实践的逐步深入而日趋激烈。
正如之前就“数据收集与分析”的话题与 LinkedIn商业分析部总监张溪梦讨论时,他特别提到的一点:“统计分析有两个知名系统,SAS和R。前者稳定,闭源,功能众多,大型企业用户很多。后者,开源,反应快,但并不稳定,专业领域优势明显,年轻人很喜欢用。各有空间和市场。”是的,直到现在,围绕SAS和R,仍有不同的拥护者在持续热烈地讨论。
WildTrack动物保护组织联合创始人Zoe Jewell及Sky Alibhai博士
有这样感触的不仅是企业,还有很多需要进行数据分析的组织。近日,有机会与SAS软件旗下的JMP软件大中华区总经理严雪林、WildTrack动物保护组织联合创始人Zoe Jewell及Sky Alibhai博士沟通,深入了解了作为公益性动物保护组织,WildTrack是如何在JMP统计分析软件上开发出自己的技术——FIT(Footprints Identification Technology,足迹识别技术)。
我们讨论的重点在:FIT研发方向、对底层数据分析平台的需求、技术困难和实现路径、为何没有选择R、未来在国内野生动物保护(东北虎和大熊猫等)方面的应用等。值得敬佩的是,FIT技术已经全面对野生动物保护机构和个人开放(免费),而作为其底层分析平台,近20年来,JMP公司一直免费为全球野生动物保护组织提供。
FIT,数据分析平台上的“APP”
Jewell是WildTrack动物保护组织联合创始人兼主席,拥有伦敦卫生与热带病医学院理科硕士及剑桥大学兽医硕士。他告诉我,FIT,足迹识别技术,实际上是基于JMP软件的数据分析方法创造出来的“APP或工具包”(我们更倾向认为这是一种SaaS)。其原理是通过动物脚印的分析、追踪、比较来进行数据分析,确定整个生物种群的生存、生活规律和发展的状况,为动物保护有关方面的决策打下基础。FIT已经在非洲大象、黑犀牛、白犀牛、狮子、猎豹、犰狳、北极熊等动物追踪和分析中都有所应用。更有意思的是,Jewell和Alibhai已经与国家林业局猫科动物研究中心一起,在东北虎基地里面做了很多野外工作,并与四川卧龙和雅安一起,共同为大熊猫的保护和野生大熊猫种群的调查、探寻做着基础的培训工作。
FIT足迹识别技术
谈到FIT技术的研发初衷,是很多年以前,Jewell在中非的津巴布韦附近的一个公园里做野生动物保护工作的时候,给犀牛安装了无线电项圈,从而监控其生存状态。当时,无线电是很先进的技术,也很昂贵,但并不是很有效(在草原上容易使用,但在森林或灌木丛中,并不好用)。更可怕的是,十多年过去,通过Jewell和Alibhai的研究发现,因为无线电技术的应用,雌性犀牛的受孕率不断下降(没有佩戴无线电的母犀牛每三年就会自然怀孕一次,但当不断的增加戴项圈的次数后,其两次怀孕之间的间隔可长达十年)。
Alibhai 是WildTrack动物保护组织共同创始人,拥有乌干达马凯雷雷大学动物学学士、牛津大学动物学哲学博士,对这种“侵入式技术”保护动物的负面影响,他非常重视和伤心,一直在积极探索新的“非侵入式”动物保护方法。
有没有有效、低成本、非侵入式,尽可能不影响动物,对动物的伤害尽可能少,并且在任何地方都可以使用的新技术?Jewell 说:“一次和非洲动物追踪者一起工作时,当我们在非洲猎人面前使用无线技术时,遭到了嘲笑。他们说‘为什么你们使用这么愚蠢的技术,而不通过脚印。这样多简单、多直接、多清晰。’”
如果要从头开始研发足迹识别技术,对于动物学家们而言,几乎不可能(被迫的学习背后的统计学原理和技术,这对动物学家而言是不可思议的)。他们需要能够支持个性化开发的数据分析平台。
Alibhai说:“那个时候我们很想找到一些简单的数据分析方法,去帮助我们了解这些脚印分析的原理是什么,很偶然的机会知道了JMP软件(SAS软件旗下产品)。我们拿到的第一个版本的JMP是在20年以前,JMP有个很独特的地方,JMP有自己的编程语言,叫JMP Script Language(JSL)脚本语言。和其他程序语言不一样的地方是,它很简单,很容易读,不像计算机编程那样涉及到很多原理性的东西,它都是在应用层面的。”
将图形、图像引入数据分析的世界
在获得JMP公益性支持之后,Jewell和Alibhai开始一步步构建起他们的足迹识别技术。当然,问题很多:
如何辨识脚印?用数码摄像机或者普通照相机来拍摄。
如何辨识其中的区别模式?来确保能够准确地将两组看起来很相似的脚印中辨别出这是两只不同的犀牛。这需要找到一套简单的统计方法来建立模型。事实上,正常人眼中一样的脚印,在统计学中是有显著差异的。其目标是,通过模型将脚印还原回犀牛的世界,区分究竟是一只犀牛还是两只完全不同的犀牛。
如何辨识出如动物性别这样更深层次的需求?也就是说,除了辨识它是属于不同的犀牛之外,还要能够辨认出它到底是属于雌性犀牛还是雄性犀牛。
FIT中东北虎脚印对比分析图
这其中,在底层分析系统中针对Jewell和Alibhai的需求进行开发必不可少。当Jewell和Alibhai希望技术开发人员能够将“图形、图像引入数据分析的世界,通过我们提供的图形来分析其中的元素,并找出图形之间显著、规律性的差别。”SAS软件的联合创始人,也是JMP的创始人John Sall帮了大忙。要知道,在统计分析软件中,1980年就已存在的JMP在可视化方面很强,因为其一开始的使命就是结合图形化,使基于大型计算机、小型机的分析简单而统一。John Sall同意将需求引入JMP,并进行新的开发,以帮助Jewell和Alibhai实现可视化目标。
事实上,通过JMP中复杂的数学原理和方法开发FIT工具包,实现在辨别动物身份的同时,辨别性别、年龄等目标都已经实现。而通过对区域内动物脚印分析,可以确认动物数量和活动范围,进而为制定动物保护策划提供依据。这些FIT已经做到,是“非常了不起的突破”。
当相关论文被发表之后,来自中国东北林业大学国家林业局猫科动物研究中心的姜广顺教授主动联系了他们。姜教授面临的最大挑战是:中国大兴安岭、小兴安岭地区的野生老虎通常活动的范围在哪里?数量有多少?这些老虎性别的比例是什么样的?他曾经通过很多传统方法,如看粪便、用自动野外的摄像机追踪、DNA分析等,但都无法得到关键信息,所以希望能得到Jewell和Alibhai的帮助。“去年,东北野生动物调查员所收集的视觉信息、图片信息交给我们后,通过FIT详细的分析,我们得出了一个特定区域有七只野生老虎的结论,并将其中的性别、比例等分析结果都给到了姜教授。”
“不仅是东北虎,还有野生大熊猫,能够参与到中国以及世界上两个最重要的濒危物种的保护当中去,对我们来说,这是一件非常荣幸的事情。我们也惊喜地看到,中国政府在野生动物的保护方面正在投入越来越多的资源,在政府层面得到越来越多的重视,和我们打交道的中国政府机构官员都非常热情,并且非常主动地展现出极高的兴趣来和我们合作。最近,在卧龙和雅安的大熊猫保护基地,本来以为需要好几个月才能拿到脚印等资料,结果回答说,只要两三周就可以把一切工作结束。这让我们很惊讶。能够和这样重视动物保护,并且愿意投入大量资源的政府合作去保护这些动物,使得我们的工作变得更加有效,也更加有意义。” Jewell对我说。
在动物保护领域,JMP和FIT是免费的
对于像Jewell和Alibhai这样的科学家而言(或者是工程师,数据分析员),他们的工作,更应该是将这些工具集按照自己所需要的工作顺序和逻辑管理好、整合好,形成简单、易用的工具包,便于做现场分析和调查的时候,能够直接调用。而实现这一目标,其中的技术路径很有价值。
野生东北虎的脚印变成一组组的X坐标和Y坐标的数据
不同的物种,需要在FIT中调整各个不同的参数?还是开发不同的模块来做分析?
Jewell:FIT在JMP软件里附加的一个工具包,菜单中有不同生物种群的组合。每个物种都有很独特脚印的模式和特征,有些物种有高度的相似性,比如猫科动物里的老虎、狮子、豹、山猫等等,它们的脚印模式都是四个脚趾头在前,后面一个大的脚掌的印子,不仅长相一样,模式也有高度的相似性。对于那些生物来说,只要调整里面一些关键的参数就可以。对于其他的一些物种来说,就要开发出一些完全不同的新的工具包或模块来做,比如大熊猫,大熊猫和猫科动物不一样的地方在于,大熊猫的前面有五个脚趾,在侧面还有一个专门用于抓握东西的另外的小趾头,在底下还有一块类似于小脚掌的东西,所以它的模式、结构长相和其他动物是不一样的。而以大象来举例,所有大象的脚印都是一样,都是一个巨大的椭圆形,没有太多的细节可以参考,所以它辨识的难度自然要增加一些。所以专门为大象这样的物种,开发出完全全新的模块,去适应它的脚掌。
Alibhai:大熊猫的脚趾很特别,有五个脚趾。这个在功能上来讲和人类的大拇指是一样的,是类似于垫、脚掌一类的东西,非常独特,是和所有的生物都完全不一样的模式。所以对于大熊猫来说,我们开发出完全不同的新的模块,去分析它们的这些特征。首先是找到它的脚掌的图像,然后将脚掌信息拆分成很多小的信息,这些信息包括脚趾之间的距离,中心点之间的距离,各个中心点连线之后不同的角度、每一个脚趾边缘的关键数据信息等,作为原始数据来分析。
需要的开发点在哪些方面?
Jewell:FIT都是用JMP的脚本语言开发出来的。现在还在持续开发,增加更多功能和特征,让它变成对于野外工作的人来说更加容易使用和辨识,而不需要懂太多统计学原理和技术。举个例子,从操作层面看,只要将图片的信息拉入菜单,就可以自动计算图形特征,并自由设置图像点,来对图形图像进行旋转和重新处理,确保与标准化样本一致。这样就不需要对野外取证人员有太苛刻的要求才可以拍照,因为标尺度已经设置在系统中,只要简单操作就可以完成。除此以外,还可以通过不同的参数设置,如雪的厚度会影响脚印,很深的雪和很浅的雪,出来的效果有可能是不一样的。所以系统允许输入不同参数,即取照时雪的厚度是怎样,系统就会自动调整图形的关键位置的参考点。现在,我们还在与北卡州立大学的工程系同事们一起做一项新的项目,将整个过程自动化,即完全自动的对这个图像信息进行处理。以后,还将有深度图和3D图的分析,以及通过反面信息看到正面信息,让FIT更加完善和易用。
东北虎的脚印分析过程是怎么样的?
Jewell:首先通过圈养或者捕获的东北虎进行样本的对照,通过反复校验模型和严密的测试,最终保证了近乎100%准确度。而后,通过图像分析和数据处理,将野生东北虎的脚印变成一组组的X坐标和Y坐标的数据。对一张脚印图形而言,需要130个测量值。我们对比分析了600张脚印数据,得出44头东北虎的结论。并通过进一步的设定,判断这是哪种类型的东北虎(雄性或雌性),以及是年轻或年老的。而这些结论,都可以通过图形分析展现出来。
FIT技术上很有特点,是否会考虑开源,可以让更多企业或组织来使用?
Jewell:在动物保护中,JMP很慷慨(John Sall做出承诺,任何野生动物保护的组织都可以免费使用JMP),他不仅为我们,还为更多动物保护的组织和个人提供免费的JMP。FIT现在也免费提供给大家。这已经相当于开源了。所有的机构、组织和个人都能免费使用这项新的、好的技术。
有没有考虑过FIT也可以在R语言中应用?
Jewell:没有选择R的一个关键原因是R没有办法像JMP一样对图形进行强大的量化和处理的能力。FIT还没有百分之百的完全成型,我们还将不断完善这个产品,比如界面更美观、细节更完善、使用过程要更加平滑和易用。但无论它将来能够成熟到什么样的地步,我们都希望FIT是免费提供给别人使用。
FIT对IT系统有要求么?
Alibhai:脚印一般都是一串一串的,要确保信息的完整性和准确性,数据量就要大。对比两个脚印和两串脚印,计算量是几何级数增加的。一般两组数据对比时,需要调用数百次的模型对比分析。这样对后台运算次数和数量要求较高。但随着目前IT产品性能的提升,很容易满足相关需求。
Alibhai:我们测试过JMP和其他统计软件,也测试过R。从处理速度上看,数据量很小的时候,几乎差不多。但是当数据量很大时,就会出现百倍甚至千倍的差异。R的开源特征使得其在统计有效性验证方面有问题,而软件工程中的稳定性和可靠性也比较有挑战。我们希望得到的是反复测试校验后,模型有效性得到明确的验证平台。
是否会将摄像、无线电、监控等其他技术也集合到FIT中?
Jewell:每一个技术都有它的优点和缺陷,我们一定要整合技术的优点。虽然无线电对某些种群有伤害,但对其他种群伤害较小。野外保护里现在有一个越来越流行、越来越新的逻辑,就是成本要尽可能低、有效,实施、落实要相对简单。我们希望得到真实的、自然的野生动物的数据,要确保整个数据获取的过程对它们的影响要尽可能的小,就是非侵入性的理念。
在统计分析平台上,应用分析将会百花齐放
当被问到分析和云计算是否能紧密结合时,JMP软件大中华区总经理严雪林的观点很值得品味:“统计分析对于实时要求并不高,同样的数据,十个统计学家得出的结论可能会有十种。所以需要反复讨论、模型训练,需要依照统计模型和数据原理来算出无限的接近和模拟的分析结论。这一过程有时候会很长,甚至会到1-2年。举个例子,比如股票K线图,可以每一秒都实时,但分析不会。 ”所以在他看来,“现在,分析和云结合并不紧密”。
SAS软件旗下的JMP软件大中华区总经理 严雪林
虽然明显与大数据浪潮下的数据分析的热度背离,但这样的观点却非常现实。要知道,在银行业、高科技、半导体、制药、生物等对数据分析成熟度较高的行业中,已经成为研发的黄金标准或公认标准的JMP是很有发言权的。严雪林说:“数据分析不仅在中国,即使在全球也还没有进入一个主流应用的领域。很多大型企业内部报表还是Excel,商业智能软件都还没有。BI是数据展示,当发现其中有些项目或者业绩出现变化时,就需要进行统计分析了。而目前现状是,即使是行业领先企业,数据分析也没有落实到这些层面,比如银行,对于风险、市场营销、运营、财务、绩效管理、网点设置等关键领域导入数据进行分析的意识还不足。”
“值得高兴的是,现在很多大的厂商都构建了独立的数据分析团队,尝试性的做交叉销售、提升销售、交易关联性分析。企业数据应用深度、市场竞争力、整体环境的变化都使得这两年数据分析热了起来。相信未来,在统计分析的平台上,应用分析将会百花齐放。”
写在最后:
严雪林、Jewell以及 Alibhai博士幽默且坦率的回答给我们留下了深刻的印象。而报以最热烈掌声的是,在FIT的开发和应用中,没有任何商业利益的存在,唯一的利益所在就是要保护动物、保护自然生态。就像Jewell和Alibhai所参加的中国野生动物保护项目,没有任何商业利益在内,即使是差旅费用,都是他们自己支付的。有一种追求,值得尊敬。
数据分析咨询请扫描二维码
数据分析师的工作内容涉及多个方面,主要包括数据的收集、整理、分析和可视化,以支持商业决策和问题解决。以下是数据分析师的一 ...
2024-11-21数据分析师必须掌握的技能可以从多个方面进行归纳和总结。以下是数据分析师需要具备的主要技能: 统计学基础:数据分析师需要 ...
2024-11-21数据分析入门的难易程度因人而异,总体来看,入门并不算特别困难,但需要一定的学习和实践积累。 入门难度:数据分析入门相对 ...
2024-11-21数据分析是一项通过收集、整理和解释数据来发现有用信息的过程,它在现代社会中具有广泛的应用和重要性。数据分析能够帮助人们更 ...
2024-11-21数据分析行业正在迅速发展,随着技术的不断进步和数据量的爆炸式增长,企业对数据分析人才的需求也与日俱增。本文将探讨数据分析 ...
2024-11-21数据分析的常用方法包括多种技术,每种方法都有其特定的应用场景和优势。以下是几种常见的数据分析方法: 对比分析法:通过比 ...
2024-11-21企业数字化转型是指企业利用数字技术对其业务进行改造和升级,以实现提高效率、降低成本、创新业务模式等目标的过程。这一过程不 ...
2024-11-21数据分析作为一个备受追捧的职业领域,吸引着越来越多的女性加入其中。对于女生而言,在选择成为一名数据分析师时,行业选择至关 ...
2024-11-21大数据技术专业主要学习计算机科学、数学、统计学和信息技术等领域的基础理论和技能,旨在培养具备大数据处理、分析和应用能力的 ...
2024-11-21《Python数据分析极简入门》 第2节 3 Pandas数据查看 这里我们创建一个DataFrame命名为df: importnumpyasnpi ...
2024-11-21越老越吃香的行业主要集中在需要长时间经验积累和专业知识的领域。这些行业通常知识更新换代较慢,因此随着年龄的增长,从业者能 ...
2024-11-20数据导入 使用pandas库的read_csv()函数读取CSV文件或使用read_excel()函数读取Excel文件。 支持处理不同格式数据,可指定分隔 ...
2024-11-20大数据与会计专业是一门结合了大数据分析技术和会计财务理论知识的新型复合型学科,旨在培养能够适应现代会计业务新特征的高层次 ...
2024-11-20要成为一名数据分析师,需要掌握一系列硬技能和软技能。以下是成为数据分析师所需的关键技能: 统计学基础 理解基本的统计概念 ...
2024-11-20是的,Python可以用于数据分析。Python在数据分析领域非常流行,因为它拥有丰富的库和工具,能够高效地处理从数据清洗到可视化的 ...
2024-11-20在这个数据驱动的时代,数据分析师的角色变得愈发不可或缺。他们承担着帮助企业从数据中提取有价值信息的责任,而这些信息可以大 ...
2024-11-20数据分析作为现代信息时代的支柱之一,已经成为各行业不可或缺的工具。无论是在商业、科研还是日常决策中,数据分析都扮演着至关 ...
2024-11-20数字化转型已成为当今商业世界的热点话题。它不仅代表着技术的提升,还涉及企业业务流程、组织结构和文化的深层次变革。理解数字 ...
2024-11-20在现代社会的快速变迁中,选择一个具有长期增长潜力的行业显得至关重要。了解未来发展前景好的行业不仅能帮助我们进行职业选择, ...
2024-11-20统计学专业的就业方向和前景非常广泛且充满机遇。随着大数据、人工智能等技术的快速发展,统计学的重要性进一步凸显,相关人才的 ...
2024-11-20