安防大数据技术难点分析与解决方案_数据分析师
第1页:大数据当前在各行业的应用
伴随着大数据技术在IT领域的持续发展与成熟,大数据逐步渗透到各行各业。在安防领域,大数据具有广阔的应用场景,带来深度的价值。经过初步摸索,安防大数据也面临一些技术难点。对于这些问题,我们分析安防行业特有的场景特点,探讨一些贴切的解决方案,使得大数据技术更好地为安防业服务。
大数据当前在各行业的应用
大数据技术发端于IT领域,当前在互联网、电子商务中应用得最为成熟。Google公司根据用户海量的搜索日志,成功预测病情在北美的蔓延情况;通过分析处理大量的语料库,为用户提供精准的在线翻译。亚马逊根据用户过往的购买行为,分析出特定用户群的购买“口味”,从而在自己的网站中提供精准的广告推荐。而国内的淘宝网,通过分析网民浏览商品的日志,给买家提供到特定商品的关联匹配。
在其他行业,大数据的使用也屡见不鲜:
在卫生行业,基于全民的电子档案与电子病历库正在构建。通过全民电子病历库,我们能分析全民的健康状况,监控相关疾病的蔓延走势,为做好卫生防范措施提供参考。
在电力行业,通过分析大区域的用电记录,能够优化电力企业管理模式,提升企业经营水平,为基建决策提供有力参考,提高智能控制水平,加强电力的协同管理。同样对于整个国家,通过分析用电情况,在宏观掌握国家的经济状况,为制定经济政策提供参考。
在物流行业,通过分析大量以往的配送记录,在宏观上掌握大类物品的流向,提前把物品运送到特定区域,提高送货效率。在国外,一家大型的超市,通过分析交通与商品大体流向,能在精确的时间范围内,把特定类商品送到特定的门店,减少库存时间,提高周转率,创造企业利润。
同样,在安防领域,大数据也得到广泛使用。
大数据助力安防行业
经过一段时间的摸索,大数据助力安防行业的发展取得相当的成效,部分企业如海康威视(002415,股吧)等已经有了较多的成熟项目案例。
在智慧交通方面,海康威视借助大数据技术,交通管理系统能够在恶劣的网络环境,对城区交通要道进行拍摄与录制,同时把图片与视频数据输往后端的大数据处理平台。通过后端大数据处理,识别繁忙的路段,提前做好交通分流措施。借助车牌识别技术,综合各卡口的过车记录,能够分析特定车辆的运行轨迹。同样,通过对大量行车违法记录的模式识别,能在特定路段对具有违规倾向的车辆进行报警,比如在高架桥,高速公路上。通过对城市周边主要卡口大量的行车记录分析,能识别出异常的进出城的记录,做好防范措施。
在公安执法方面,海康威视通过人脸识别技术,提高对犯罪嫌疑人追查的效率。通过对大量异常行为的模式特征提取,能提前判别违法行为,比如在火车站,通过对扒手外观打扮,行为举止,作案时的动作特征分析,能够提前把嫌疑信息告知车站治安人员,提高执法的效率。
在平安城市、智能家居,方方面面,安防大数据也引领很多新奇的应用。
第2页:安防大数据当前面临的技术难点
安防大数据当前面临的技术难点
然而,伴随着大数据在安防领域越来越深入的应用,也突现出一些技术难点。在IT领域,大数据技术发展较为成熟,针对不同的应用场景有较为丰富的技术选型以及技术路线,其中很多技术可以移植应用到安防领域中。但IT与安防毕竟是两个不同的领域,两者之间存在很多不一样的地方。最大的不同,就是数据本身的不同,主要体现在一下方面:
数据类型不同。在IT领域,大数据处理的对象往往是网页索引、用户行为、日志记录等字符型数据,这些是结构化、方便计算识别处理的数据。而在安防领域,数据往往以图片、音频、视频等非结构化的数据,往往计算机不能直接识别,这些数据只有在人面前才显得有意义。
数据量在数量级上的不同。在互联网领域,单条日志记录一般在一百字节之内,到了1PB的日志记录,已经是一个足够大的量。但在安防领域,一张普通的缩略图就几百KB,如果考虑高清摄像,高清视频,这个数量要更大。一个普通的中等城市,在主要交通卡口拍摄的图片,一年下来就能积压几个PB的数据,如果考虑视频,这个数据量更大。
对数据的实时性要求不同。在互联网行业,以日志型数据分析为主的典型应用中,对实时性要求没那么高,比如淘宝的推荐系统,是否分析最近一个小时用户的浏览记录对于推荐效果关系不大。而在安防领域,前端摄像头录制的都是实时流,这是一个不间断的数据流,最近录制的数据超过一定时间没有得到有效保存,将会永远被丢失。
针对安防领域与IT领域在数据本身上的异同,把适合IT领域常规的大数据技术搬到安防领域就会碰到一些技术难点,表现如下:
存储成本问题。在IT领域,海量的数据往往保存在分布式存储系统中,为了提高数据的可靠性,一份数据往往复制成几份相同的副本,分别保存在不同的节点中,当其中一些副本丢失时,可以从其他节点读出数据。比如在Hadoop中,一份数据往往在集群中保存了相同的3份。如果有1PB的原始数据,则至少要占用3PB的磁盘空间。而在安防领域,几个交通卡口的视频,在一个较短的时间内,如果不覆盖之前的数据,就能轻易积压几个PB。由于图像、音频、视频数据本身的量太大,生搬传统的多副本策略成本过高,我们需要设计出一些更高效同时不损失可用性的方案。
小文件存储问题。这个问题是大数据技术面临的一个共性问题,但在安防领域可能又突现得较为严重。在互联网,小文本、图片、音乐都是小文件,当层积较多时,都面临如何存取这些海量小文件的问题。而在安防行业,小文件主要以图片为主,比如一个城市的主要交通卡口在一年内,就能产生百亿张图片。对于这些海量的小文件的存储,涉及到大量元数据的管理,保证存取的性能是问题的关键。
当然,问题并不可怕,通过分析研究安防应用场景,我们摸索出一些贴合安防大数据的解决方案。
解决问题的方向
引入擦除码(ErasureCode)技术,节省存储空间。擦除码是一个在通信理论中的术语,其基本思想就是:一条原始信息由K个符号构成,在信息发送前,通过某种具有冗余功能的数学映射,生成由(K+M)个符号组成的编码后的信息,然后把编码后的信息通过信道发送给接受方,由于信道的不可靠特性,在信息传输的过程中可能会丢失几个符号,接受方在接受到信息后,只要丢失的符号不超过M个,则接受方在剩余的符号中通过逆向的数学变换,能还原出由K个符号组成的原始信息。
如上图所示:原始信息由[A、B、C]三个符号组成,现在通过编码函数f对其进行编码,生成编码后的信息为[a、b、c、d、e],编码后的信息在信道上进行传输,在传输的过程中由于某种原因符号a与b丢失了,接受方只接受到了三个符号[c、d、e],接受方通过解码函数-f(实际上就是编码函数的逆函数)进行解码,能够计算出原始的信息[A、B、C]。由上可看出,信道虽然不可靠,但在信道上丢失的两个符号并不影响我们整个信息的传输,我们唯一要做的工作就是在发送信息前与接收信息后做一定的编码与解码工作。
受上面思想的启迪,在分布式存储系统中,一个大文件分成若干块,这些不同的块分发到不同的节点中,现在假设一个文件由K个数据块组成,我们通过编码后变成(K+M)个编码块,再把这(K+M)个编码块分发到不同的节点中。现在由于集群中几个节点失败,丢失了几个块,只要丢失的块数不超过M,我们依然能从其他节点中读入K个编码块,通过解码运算,得出我们之前的K个数据块,也就还原出那个完整的文件。而在分布式系统中,超过M个数据节点同时失效的可能性很小,由此可以看出,虽然存在节点失败的情况,但依然不影响我们数据存储的可靠性。这里引入额外的存储空间为(M/K)倍,而传统的N副本策略,引入的额外存储空间为(N-1)倍,通过调节M与K的关系,我们能把存储空间降到1.3倍,这与传统Hadoop占用存储空3倍相比,具有巨大的节省价值。
在工程实践中,我们通过数据分条带,优化编码分组策略,进行高效快速的编解码计算,既保证数据存取的性能,又节省了大量的磁盘空间。如图-2,数据横向分条带,同一个条带内,左边为原始数据(K=4),右边为编码后的数据(M=2),存储时,把同一个条带内的所有数据分发到分布式系统上的不同节点。当处于同一个条带内的数据丢失块数不超过2时,依然能从剩下的数据块中通过解码计算出原始的数据。
建立索引,小文件合并成大文件集中存储。对于大量的数据,单机无法存储,借助分布式存储技术,将数据分散存储到不同的节点上。但主流的HDFS分布式存储系统适合存储少量的大文件,就是文件个数较少,但单个文件的很大。如果大量的小文件朴素的存放在HDFS中,由于要管理的元数据巨大,严重印象集群的可扩展性,以及文件本身的存储性能。解决问题的思路是,把大量的小文件合成一个大文件,同时对这些小文件建立索引,索引信息集中管理。当要读取文件时,先查找索引信息,根据查找出的索引信息再定位到那个大文件具体位置,读出小文件。
如图-3,上面为把若干小文件合成一个大的文件,下面为针对这些小文件建立的索引,所有的索引又合成一个索引文件。在工程实践中,我们又对索引文件的结构进行了优化,引入了哈希索引结构,由于哈希定位过程相当过,所以提升了小文件的读取性能。同时,由于索引文件很小,我们除把索引文件持久化到底层文件系统,还同时把索引信息读入内存,这样极大提升了文件存取效率。
结语
随着大数据技术的逐步发展与深入应用,它会给我们带来越来越多的潜在价值。当安防行业进入就计算化时代后,各种前端设备采集大量的图片、音频、视频,这个数据在一个较小的区域一个较短的时间内,就能积攒海量的数据,要掌握并且成功挖掘出这些数据的价值,更好的为安防服务,急需我们掌握大数据技术。目前,安防行业仅有海康威视等极个别企业掌握了该项技术。
由于安防行业和IT互联网行业存在差异,我们在借鉴互联网大数据技术的同时,也要深入研究我们的安防场景,探索一些贴切安防应用的大数据技术。安防大数据第一阶段要解决安防大数据的存储问题,当解决好存储问题后,我们进入到安防大数据分析处理阶段,当我们具备娴熟的分析处理技术后,可以进入深度学习,多维数据挖掘的深入应用。这一路还很漫长,我们慢慢探索,精益求精,一定能让安防大数据更好的服务安防业,保证我们的幸福安康。
数据分析咨询请扫描二维码
需求持续增长 - 未来数据分析师需求将持续上升,企业对数据驱动决策的依赖加深。 - 预测到2025年,中国将需要高达220万的数据人 ...
2024-11-22《Python数据分析极简入门》 第2节 4 Pandas条件查询 在pandas中,可以使用条件筛选来选择满足特定条件的数据 importpanda ...
2024-11-22数据分析师的工作内容涉及多个方面,主要包括数据的收集、整理、分析和可视化,以支持商业决策和问题解决。以下是数据分析师的一 ...
2024-11-21数据分析师必须掌握的技能可以从多个方面进行归纳和总结。以下是数据分析师需要具备的主要技能: 统计学基础:数据分析师需要 ...
2024-11-21数据分析入门的难易程度因人而异,总体来看,入门并不算特别困难,但需要一定的学习和实践积累。 入门难度:数据分析入门相对 ...
2024-11-21数据分析是一项通过收集、整理和解释数据来发现有用信息的过程,它在现代社会中具有广泛的应用和重要性。数据分析能够帮助人们更 ...
2024-11-21数据分析行业正在迅速发展,随着技术的不断进步和数据量的爆炸式增长,企业对数据分析人才的需求也与日俱增。本文将探讨数据分析 ...
2024-11-21数据分析的常用方法包括多种技术,每种方法都有其特定的应用场景和优势。以下是几种常见的数据分析方法: 对比分析法:通过比 ...
2024-11-21企业数字化转型是指企业利用数字技术对其业务进行改造和升级,以实现提高效率、降低成本、创新业务模式等目标的过程。这一过程不 ...
2024-11-21数据分析作为一个备受追捧的职业领域,吸引着越来越多的女性加入其中。对于女生而言,在选择成为一名数据分析师时,行业选择至关 ...
2024-11-21大数据技术专业主要学习计算机科学、数学、统计学和信息技术等领域的基础理论和技能,旨在培养具备大数据处理、分析和应用能力的 ...
2024-11-21《Python数据分析极简入门》 第2节 3 Pandas数据查看 这里我们创建一个DataFrame命名为df: importnumpyasnpi ...
2024-11-21越老越吃香的行业主要集中在需要长时间经验积累和专业知识的领域。这些行业通常知识更新换代较慢,因此随着年龄的增长,从业者能 ...
2024-11-20数据导入 使用pandas库的read_csv()函数读取CSV文件或使用read_excel()函数读取Excel文件。 支持处理不同格式数据,可指定分隔 ...
2024-11-20大数据与会计专业是一门结合了大数据分析技术和会计财务理论知识的新型复合型学科,旨在培养能够适应现代会计业务新特征的高层次 ...
2024-11-20要成为一名数据分析师,需要掌握一系列硬技能和软技能。以下是成为数据分析师所需的关键技能: 统计学基础 理解基本的统计概念 ...
2024-11-20是的,Python可以用于数据分析。Python在数据分析领域非常流行,因为它拥有丰富的库和工具,能够高效地处理从数据清洗到可视化的 ...
2024-11-20在这个数据驱动的时代,数据分析师的角色变得愈发不可或缺。他们承担着帮助企业从数据中提取有价值信息的责任,而这些信息可以大 ...
2024-11-20数据分析作为现代信息时代的支柱之一,已经成为各行业不可或缺的工具。无论是在商业、科研还是日常决策中,数据分析都扮演着至关 ...
2024-11-20数字化转型已成为当今商业世界的热点话题。它不仅代表着技术的提升,还涉及企业业务流程、组织结构和文化的深层次变革。理解数字 ...
2024-11-20