如果我们把大数据这个词作为一种新的计算理论、方法、技术和应用的综合体来看,那么我们探讨大数据与信息安全之间的关系,就有两种方向:其一,就是如何用大数据来解决安全问题;其二,就是如何保障大数据的安全。本文探讨的是前者,并且是通过对于数据根本属性的探究,通过大数据基础科学问题的探究,结合信息安全的根本原则和高端问题,探讨大数据应用于安全的科学研究和产业开发重点课题。
【那些V】
谈大数据似乎总要从所谓的“3个V”或者“4个V”谈起。自己很想免俗,却好像又没有其他更好的切入点。也许这些个V还真的就是大数据的一些根本属性,是绕不开的一些基础问题。
在大数据的V中,有些是常说的,有些是不常说的,这里总结了7个V:
——Volume,海量的数据规模;
——Velocity,快速的数据流转和动态的数据体系;
——Vast,数据来自广大无边的空间;
——Variety,多样的数据类型;
——Veracity,数据的真实和准确更难判断;
——Value,大数据的低价值密度;
——Visualize,大数据可视化的重要性。
【我们需要多大的安全大数据】
在上面的这7个V中,第1V的Volume表现的是大数据的所谓“大”的状态。
现在信息安全领域的常规市场和应用中,所遇到的数据量还都到不了当前大数据所谓的PB级;TB级数据都是比较少的处理对象。而在城域网监控、网络宏观态势感知等应用中,其实已经积累并且继续不断增加着大量的数据,将是大数据方法的重要用武之地。
【时间轴上的安全大数据】
Velocity所代表的时间范畴,是大数据的重要来源。
在当前常规的信息安全产品中,特别是具有代表性的检测响应类产品技术中,大量采用实时检测;所谓“实时”当然体现了“快速”的内涵。而在带宽越来越大、系统越来越复杂,采集数据越来越多的同时,安全检测对于时间响应的即时性要求并没有减弱。如果对于源源汹涌而来的数据不能及时处理,就将被数据淹没 (DoS)。这就需要实时或准实时分析系统中采用更多的“流计算”方法。(流计算是区别对比于批量计算的方法)
流计算在安全分析中的应用
另外,“实时”常常还隐含着一个缺省的意思——主要根据当前数据(或者数据缓存)作出分析判断,也就是说不大量保存长时间的原始数据(或者说时间窗口比较窄)。而安全事件及其原因本身具有很长的时间跨越性(APT就是跨越长时间的缓慢攻击模式),这逼迫我们要存储更长时间的日志和网络流等原始数据;而当我们开始存储更长时间的数据时,也发现了这些动态数据流通过“存储”而变成了静态的数据块,于是并行计算、异步计算以及一些智能算法等就可以被应用于其上了。
我们分析一些IT架构模型:比如Zachman将一个IT系统分成数据、功能、人、网络、时间和动机等六个方面;再比如DOSH视角将一个IT系统分成数据、操作、系统和人四个方面。说一个很哲学化的结论:“所有的IT系统要素中,只有数据是能够穿越时间的”。其他要素如功能、系统、人、网络、操作等等都只能存在于当下;只有数据天然就是可以从过去留存到现在,并且可以从当下延续到以后。所以,任何一个以数据为核心的方法和技术,都要在时间延展上下功夫。所谓时间延展,说得直白一点就是要在(英文同是Memory的)存储和记忆上下功夫。
课题:流数据的高速存储和分析问题(存储结构与分析方法具有深度关联)
【空间上的安全大数据】
Vast所代表的空间范畴,是大数据的三个重要来源之一。也就是从更多的空间位置采集大数据。
任何一个攻击过程、任何一个安全事件蔓延过程都会涉及很多空间位置和空间范围,没有哪个安全问题是孤点问题。那么在对一个多空间点的安全事件对象,要进行更加充分的分析和发现,当然是获得更多空间位置的采集数据会更好。数据采集点的增加当然会线性地增加安全分析的数据量。而如果每个数据采集点所采集的数据也比较大的话,那就更成为了一个分布式大数据问题。
在空间范围内传输大数据是一个必须回避的操作,这样的传输会给网络带来灾难性的性能压力。或者说根本不能考虑大数据的传输,而只能考虑将计算移动到数据旁边,也就是要进行分布式存储和分布式计算。这里面一个根本的问题就是,“一个全局性安全问题是否可以分解为多空间位置的局部计算,而各个空间位置的局部计算解经过合并后,所得到的综合解是有效的全局解。”
【多样性的安全大数据】
Variety所代表的数据多样性,也是大数据的三个重要来源之一。也就是从更多样的数据形态中获得大数据。
当前信息安全市场中的主流产品,基本上都是单一数据类型的检测工具。
产品被分析和处置数据的类型
漏洞扫描发向目标系统所返回的数据
防火墙、IDS/IPS、UTM、病毒防火墙等网络链路上的通用网络数据流
Web应用防火墙(WAF)、数据库审计等网络链路上的专门网络数据流:WAF对应的是Web访问流;基于网络的数据库审计对应的是Web服务器和数据服务器之间的网络流。
防垃圾邮件系统邮件包
日志审计服务器产生的日志
终端安全产品终端系统的日志、配置、操作痕迹等。
安全管理平台(SIEM安全信息与事件管理)各种设备和安全产品所产生的事件类数据(包括日志),经过范化(Normalization)后汇集到安全管理平台中。
从上面这个表格看到,大部分安全产品所处置的数据确实都比较单一。而现实中的任何一个安全事件都是有丰富数据痕迹的,如果能够综合多样化的数据,应当可以获得更加准确和深入的分析结果。而且,当前信息安全检测方面的两个高端问题:APT检测问题、网络宏观态势感知与预测问题,也必须通过多样化的数据才可能有效地解决。
什么是所谓的“数据多样性”?其实就是数据的“结构”多样性。一个安全事件行为所留下的各种各样的痕迹,是难于用少数几种结构来概括的。如果要强行进行数据格式的范化和归一化,则必然会丢失多样性数据所蕴含的丰富内容,从而丢失关键信息。所以,传统的安全管理平台的数据收集、范化和关联分析方法,难于获得令人满意的安全价值也就不奇怪了。
大数据方法所针对的一个重要问题就是所谓“非结构化”问题或者“半结构化”问题。其实,没有哪个数据是没有结构的,每个数据都是“结构化”的,只不过这个所谓“非结构化”的“结构化”不是我们容易处理和分析的结构,不是我们常用的 “二维表结构”(以关系数据库处理系统为核心)。比如,网络数据流是天然的延时间轴展开的流结构,最适合播放操作;一个网络区域中各个系统之间的连接关系是一个图论中的网结构;而不同系统所产生的多样化日志是一些格式互不相同的二维表结构。
大数据方法的一个突出代表就是NoSQL类型的数据存储与检索分析。尽力保留大量数据的原始形态,以此为基础进行后续的分析和处理。在信息安全市场中,市场份额最大的就是部署在网络链路上的网关和旁路检测产品,这些产品都是对网络流进行分析的,那么网络流的原始数据留存和快速分析将是躲不过去的关键课题。
网络流安全数据的原始数据留存和快速数据分析视图
【好不好的安全大数据】
再说一句很哲学的话:“所有的IT系统要素中,只有数据是可以伪造和臆想”。其他的要素功能、系统、人、网络、操作等等,也许一个会像另一个,但是每个都只能是自己。只有数据天然就是可以被修改、被伪造,并且可以无中生有。所以,数据有好坏问题,而这个好坏问题在大数据中会更加极端地被放大。
所以大数据的Veracity真实和准确问题,是在“量”的性能问题之外所面临的最难的问题。更泛的表达这个话题就是数据的“质”——数据质量问题。在《数据质量工程实践》一书中,谈到了数据质量的12个维度很值得借鉴:
1. 数据规范(data specification)
2. 数据完整性准则(data integrity fundamentals)
3. 重复(duplication)
4. 准确性(accuracy)
5. 一致性和同步(consistency and synchronization)
6. 及时性和可用性(timeliness and availability)
7. 易用性和可维护性(ease of use and maintainability)
8. 数据覆盖度(data coverage)
9. 表达质量(presentation quality)
10. 可理解性、相关性和可信度(perception, relevance and trust)
11. 数据衰变(data decay)
12. 效用性(transactability)
【价值导向的安全大数据】
数据是物理世界的数化反映。一句哲学化的说法:“价值让数据不同于数字”。数据背后是有对象的,而这些对象常常是有属主的、有立场的、有价值归属的、主观的。
大数据几个V中的这个Value,最主要的意思就是“大数据的低价值密度”。由于大数据的体量很大,其所蕴含的价值总量是很大很可观的,但是由于其体量大也就导致了其价值密度极低,而且是极端的低密度、极度地稀疏。
稀疏价值背后带来了一个很前沿的学术方法——超高维问题。这些稀疏的价值,就像在一个高维空间的一些稀疏的点。高维到什么程度?稀疏到什么程度?最极端的情况就是这些数据样本的维度甚至比样本个数还大。比如,人类基因测序问题就是这类型的问题,基因所蕴含的丰富维度是大大高于普通研究中所能涉及的几十万几百万样本规模的。
在传统计算的处理习惯和限制下,我们会尽量获取二维或者低维数据。而大数据方法提示我们可以主动获取高维度数据来解决无特征安全分析问题。比如,为被分析对象抽取高维度指标(几百甚至更多维度),然后再进行降维算法处理。这是安全分析中非常有前途的方向。
课题:高维安全数据降维算法和高性能计算。
所谓的价值稀疏,还有另一个视角。当具体到某一个精确定义和要求的价值,在大数据中是稀疏的。而大数据中的挖掘和利用中,不一定要获取过于精确的价值。比如,在进行“实体的个体标识”过程中,所获得的稍微模糊一些的“实体的分类标识”就能够产生不少的价值。常常说大数据是未来的石油。但是,在广袤的地球中,除了石油,还有煤、天然气;还有金子、钻石、翡翠;而像南红玛瑙、蜜蜡、青金石这样的新珠宝还在被逐步的挖掘出来。所以对于大数据的价值挖掘要有种地刨出田黄石鸡血石的心理预期。
但是,信息安全问题的解(价值)还是有比较明确的指向性的——就是在对抗中获胜。而对抗中获胜的价值分解就非常丰富多彩了。要平衡信息安全价值指向的确定性与大数据的泛价值之间的矛盾。
【价值展现的安全大数据】
价值如果挖掘出来了,还要展现给应当了解这些价值的人(或者系统)。这种可视化展示有两种努力方向:
第一种,就是将大数据中的价值“在较短的时间窗口内,用较低维度的形态”展现出来。比如一幅图,就是单点时间的二维图。比如病毒传播过程展示,就是短时间的网络拓扑(二维)过程录像。
第二种,就是给需要进行处置和响应的人和系统,提供足够的提示信息甚至是指令。自动和辅助驾驶的汽车和飞机,就需要这样的可视化系统。
而广域网网络风暴快速处置就同时需要前面这两种可视化能力。
【总结】
分析几个V背后的规律,让我们反思和了解大数据的一些基础问题。在7个V中,
——第1V,表达的是大数据所外在表现的 “大”量;
——第2V-4V说的是大数据的“大”是从时间、空间和多样性这三个方向而来;
——第5V-7V阐述的是大数据的价值流转。从数据本身的客观质量,到有立场的价值认识和价值挖掘,最后到价值的展示和利用。
大数据方法为信息安全能力带来了更大潜力,也有更多有趣的课题等待业界去研究和价值化。
数据分析咨询请扫描二维码
自学数据分析可能是一条充满挑战却又令人兴奋的道路。随着数据在现代社会中的重要性日益增长,掌握数据分析技能不仅能提升你的就 ...
2024-11-14数据分析相关职业选择 数据分析领域正在蓬勃发展,为各种专业背景的人才提供了丰富的职业机会。从初学者到有经验的专家,每个人 ...
2024-11-14数据挖掘与分析在金融行业的使用 在当今快速发展的金融行业中,数据挖掘与分析的应用愈发重要,成为驱动行业变革和提升竞争力的 ...
2024-11-14学习数据挖掘需要掌握哪些技能 数据挖掘是一个不断发展的领域,它结合了统计学、计算机科学和领域专业知识,旨在从数据中提取有 ...
2024-11-14统计学作为一门基于数据的学科,其广泛的应用领域和多样的职业选择,使得毕业生拥有丰厚的就业前景。无论是在政府还是企业,统计 ...
2024-11-14在当今高速发展的技术环境下,企业正在面临前所未有的机遇和挑战。数字化转型已成为企业保持竞争力和应对市场变化的必由之路。要 ...
2024-11-13爬虫技术在数据分析中扮演着至关重要的角色,其主要作用体现在以下几个方面: 数据收集:爬虫能够自动化地从互联网上抓取大量数 ...
2024-11-13在数据分析中,数据可视化是一种将复杂数据转化为图表、图形或其他可视形式的技术,旨在通过直观的方式帮助人们理解数据的含义与 ...
2024-11-13在现代银行业中,数字化用户行为分析已成为优化产品和服务、提升客户体验和提高业务效率的重要工具。通过全面的数据采集、深入的 ...
2024-11-13在这个数据飞速增长的时代,企业若想在竞争中占据优势,必须充分利用数据分析优化其营销策略。数据不仅有助于理解市场趋势,还可 ...
2024-11-13数据分析行业的就业趋势显示出多个积极的发展方向。随着大数据和人工智能技术的不断进步,数据分析在各行各业中的应用变得越来越 ...
2024-11-13市场数据分析是一门涉及多种技能和工具的学科,对企业在竞争激烈的市场中保持竞争力至关重要。通过数据分析,企业不仅可以了解当 ...
2024-11-13数据分析与数据挖掘是数据科学领域中两个关键的组成部分,它们各有独特的目标、方法和应用场景。尽管它们经常在实际应用中结合使 ...
2024-11-13在如今这个数据驱动的时代,数据分析能力已经成为许多行业的重要技能。无论是为工作需要,还是为了职业转型,掌握数据分析都能够 ...
2024-11-13在如今这个数据驱动的时代,数据分析能力已经成为许多行业的重要技能。无论是为工作需要,还是为了职业转型,掌握数据分析都能够 ...
2024-11-13作为一名业务分析师,你肩负着将业务需求转化为技术解决方案的重任。面试这一角色时,涉及的问题多种多样,涵盖技术技能、分析能 ...
2024-11-13自学数据分析可能看似一项艰巨的任务,尤其在开始时。但是,通过一些策略和方法,你可以系统地学习和掌握数据分析的相关知识和技 ...
2024-11-10Excel是数据分析领域中的一款强大工具,它凭借其灵活的功能和易用的界面,成为了许多数据分析师和从业者的首选。无论是简单的数 ...
2024-11-10在快速发展的商业环境中,数据分析能力已经成为许多行业的核心竞争力。无论是初学者还是经验丰富的专家,搭建一个有效的数据分析 ...
2024-11-10在如今的数据驱动世界,数据分析师在各行各业中扮演着至关重要的角色。随着企业越来越依赖数据决策,数据分析职位的需求不断增加 ...
2024-11-10