大数据来袭 企业如何保护非结构化大数据
目前企业已经进入全新的大数据时代。在高带宽、移动的、网络环境中工作和生活的我们,会产生大量的数据,这些都成为大数据的来源,而这些信息很少存在于同一个地方。在几微秒中,信息就能够发布给世界各地的很多人。企业的高管门(包括CEO、CIO、CSO等)都必须面对因为大数据带来的风险和安全挑战,并规划好如何去应对他们。本文将讨论如何看待非结构化数据相对于传统的结构化数据带来的安全风险和挑战以及多层面防护方法。
识别非结构化数据与结构化数据安全保护的差异
信息通常被归类为结构化形式的或非结构化形式的。不同的类型有不同的保护方法。举个例子来说,非结构化的Excel电子数据表实际上包含结构化的数据。在经典的术语中,结构化的数据是指数据符合某种严格的数据模型和限制的模型。比如,模型可以定义一个业务流程控制信息流经过一些面向服务的架构(SOA)系统,或者也可定义数据如何在内存的一个数组中存储。但是对于大多数IT和数据库管理专家来说,结构化数据是驻留在数据库中,并基于数据库架构和相关数据库规则被组织的信息。而作为一个安全专家来说,这就意味着两个重要的事情:
数据库驻留在数据中心,周围是物理安全设施(包括砖墙、金属柜子等)、网络防火墙和其他安全措施,允许你能够控制对数据的访问。
数据本身的结构化方式通常允许对数据的简单分类。举个例子,你能在数据库中识别一个特定的人的医疗记录和应用相应的安全控制。
所以,因为你知道结构化数据是什么样的以及它驻留在哪里,你有严格的控制机制来决定谁能访问它。对于结构化数据定义和应用安全控制相对简单,要么使用结构内置的特性或者专门为特定结构设计的第三方工具即可完成控制。
而在相比之下,非结构化数据的管理和安全更加困难。非结构化数据能在任何地方、以任何格式、在任何设备上存在,并且在大数据时代能够跨越任何网络。举个例子说明非结构化数据的应用复杂性,一个病人的记录从数据库中被提取出来显示在一个网页上,从网页拷贝到数据表格中,附在电子邮件中,然后发送到另外一个网络的邮箱中。
并且,非结构化的数据没有严格的格式。当然,我们的Word文档,电子邮件等符合定义它们内部结构的标准;然而,它们其中包含的数据几乎没有限制。比如上面列举的那个病人记录的例子,假设一个用户改变内容后把它从网页上拷贝到数据表格中,可能删除了某些字段和标题。因为这个信息从一种格式转变成了另外一种格式,它原始的机构被有效的改变了。
保护存储成结构化的数据和信息是相对简单的。但是随着一个信息从结构化的形式移转变为非结构化的时候,这个情况就会变得非常的复杂。考虑这样一个例子,很多分析人士的报告表明在当前的企业组织中,80%或者超过80%的电子信息是非结构化的,还有非结构化数据增长的速度是结构化数据的10到20倍。也考虑一下媒体上的新闻文章不断强调知识产权的窃取、信息的意外丢失、数据的恶意使用等,最核心的问题就是非结构化的数据。在2010年,全球总的非结构化的数据估计大概有100万PB(1048576000000GB),被认为将以每年25%的速度增加。我们显然需要去理解我们如何保护非结构化数据的安全。
非结构化数据需安全保护的“三态”
非结构化的数据在任何给定的时间总是处在三种状态中的一种:非使用、传输中、使用中。非使用也就是在存储设备中;它可能在传输中意味着它从一个地方被拷贝到另一个地方。或者,它可能在使用中(被一些应用程序打开着)。比如一个PDF文件,它可能存储在一个USB设备上,不在使用状态;同一个PDF文件可能从USB设备拷贝,并附在电子邮件中发送到因特网上。PDF从USB设备上被拷贝,通过很多州到电子邮件服务器,通过网络从发件箱到收件箱。最后,收件人收到邮件并打开PDF文件,在那个时刻非结构化数据处于使用状态(驻留在内存中),在一个应用程序的控制下(例如Adobe Reader阅读器),并被呈现给可以交互的用户。
结构化数据转化为非结构化数据带来风险
基于上面三种状态的描述,可以更加详细地讨论目前对保护非结构化数据的挑战。假设企业组织有一个HR的应用程序,它包括一个维护每个员工信息的数据库,包括他们的年度工资、以前的纪律处分信息、个人数据(例如家庭地址和社会安全号码)等。如同大多数现代的HR应用程序一样,它是基于网页的,所以当一个认证的用户运行一个报表的时候,报表是从结构化的数据库过渡到非结构化的数据,以HTML的格式传递给网页浏览器。用户应用程序能够很容易从浏览器的拷贝和粘贴这个信息到电子邮箱信息和通过其他方式转发。当这个信息一旦添加到邮件正文中,它失去了与原始的应用程序所有结构和关联。用户可能也会选择只拷贝和粘贴一部分信息,更改一部分信息,或者在原始的信息中添加一些新的内容。收到用户发的电子邮件的人可能会拷贝和粘贴数据到电子表格。这些电子表格信息可能被用来创建一个图示的信息,使用的原始的一些文本信息在图形上作为标签。如同这个情况所示,结构化信息很快就被三种状态的改变而转化成了非结构化数据,这些结构化数据从以前的数据库中改变并重构、存储在较小的数据格式中,它们包括电子邮件,文档,图片,视频等等。
企业可能已经很好的定义了安全模型去控制访问HR的应用程序和包含HR信息的数据库。然而,信息需要传递给对有意义的人们或者应用程序。如果它通过网络传输了,企业和用户能确定访问网络是安全的,然而,当信息到达用户时,它能够被转换成数千种不同的格式,发送给各种各样的应用程序和网络。每个信息存在的地方能够有保护的,它可能应用访问控制对共享文件和控制对数据驻留(内容)的地方和网络的访问;然而,你的非结构化信息可能在任何地方被终结,因此很难对它保护。事实上,甚至很难对它定位、识别和分类信息。一旦HR的数据终结在电子邮件中,意外的转发给错误的人,它就没有存储在数据库原始数据的良好结构了。它在从数据库到一个未授权的用户的收件箱的传输过程中,也被复制了好几次。
事实上,在大数据时代,非结构化的数据不断的发生变化,数据终结在你没有预期的地方,特别是因特网提供了一个令人难以置信的由擅长传输非结构化数据的计算机组成的大型网络。大量的金钱和精力投入到去建设社交网络(SNS),文件共享和协助服务,点对点的应用。点对点提供了无数种将非结构化数据在几秒钟内发布给数十亿的用户。所以我们经常听到关于数据丢失的例子就不足为奇,现在我们创造了这么多令人惊讶的方法允许信息简单的离开我们保护的边界,我们的网络控制用来阻止攻击者范围受我们保护的数据不再足以让它安全了。
因此,企业高层管理者要充分意识到大数据时代非结构化数据带来的安全风险和冲击,并提前准备好相应的措施来应对它。
多层面数据防泄露保护非结构化数据
非结构化数据通常需要以如下几种方式进行泄露管控:
针对以上需要,可以应用数据防泄露进行有效的防控。数据防泄露(也称DLP)指的是一个相对较新的一组技术设计去监控,发现和保护数据。你可能还听到这种技术成为数据泄露防护—有时它也称为“保护”这个词代替“防护”。在任何情况下,DLP像一个你“数据的防火墙”。有各种各样DLP的解决方案在市场上,通常能够使用如下三种类型来分别在不同的层面保护非结构化数据:
网络DLP 通常一个网络应用程序在主要的网络周围(大多数情况是在企业的组织网络和互联网之间)作为一个网关。网络DLP监控通过网关的流量试图去探测敏感的数据或者做点相关的事情,通常会阻止它离开网络。
存储DLP软件要么运行在一个应用程序上或者直接在文件服务器上,执行像网路DLP一样的功能。存储DLP扫描存储系统去发现敏感数据。当找到的时候,它可以删掉它,把它隔离或者简单的通知管理员。
终端的DLP软件运行在终端系统上监控操作系统活动和应用程序,观察内存和网络流量去探测敏感信息不恰当的使用。
并且,网络、存储和终端的DLP经常一起使用作为一个综合DLP解决方案去满足非结构数据的安全管控需求。
数据分析咨询请扫描二维码
《Python数据分析极简入门》 第2节 2 Pandas数据类型 Pandas 有两种自己独有的基本数据结构。需要注意的是,它固然有着两种数据 ...
2024-11-01《Python数据分析极简入门》 第2节 1 Pandas简介 说好开始学Python,怎么到了Pandas? 前面说过,既然定义为极简入门,我们只抓 ...
2024-10-31在当今数据驱动的世界中,数据科学与工程专业的重要性愈发凸显。无论是推动技术进步,还是在商业决策中提供精准分析,这一专业都 ...
2024-10-30在当今信息爆炸的时代,数据已成为企业决策和战略制定的核心资源。爬虫工程师因此成为数据获取和挖掘的关键角色。本文将详细介绍 ...
2024-10-30在当今数据驱动的世界中,数据分析是揭示商业洞察和推动决策的核心力量。选择合适的数据分析工具对于数据专业人士而言至关重要。 ...
2024-10-30能源企业在全球经济和环境保护双重压力下,正面临前所未有的挑战与机遇。数字化转型作为应对这些挑战的关键手段,正在深刻变革传 ...
2024-10-30近年来,随着数据科学的逐步发展,Python语言的使用率也越来越高,不仅可以做数据处理,网页开发,更是数据科学、机器学习、深度 ...
2024-10-30大数据分析师证书 针对不同知识,掌握程度的要求分为【领会】、【熟知】、【应用】三个级别,考生应按照不同知识要求进行学习。 ...
2024-10-30《Python数据分析极简入门》 附:Anaconda安装教程 注:分Windows系统下安装和MacOS系统安装 1. Windows系统下安装 第一步清华大 ...
2024-10-29拥抱数据分析的世界 - 成为一名数据分析工程师是一个充满挑战和机遇的职业选择。要成功地进入这个领域,你需要掌握一系列关键技 ...
2024-10-28降本增效:管理战略的关键 企业管理中的降本增效不仅是一项重要的战略举措,更是激发竞争力、提高盈利能力的关键。这一理念在当 ...
2024-10-28企业数字化是指利用数字技术和信息化手段,对企业的各个方面进行改造和优化,以提升生产效率、服务质量和市场竞争力的过程。实现 ...
2024-10-28数据科学专业毕业后,毕业生可以选择从事多种不同的岗位和领域。数据科学是一个快速发展且广泛应用的领域,毕业生在企业、学术界 ...
2024-10-28学习数据科学与大数据技术是当今职业发展中至关重要的一环。从基础到高级,以下是一些建议的课程路径: 基础课程: Python编程 ...
2024-10-28在信息技术和数据科学领域,数据架构师扮演着至关重要的角色。他们负责设计和管理企业中复杂的数据基础设施,以支持数据驱动的决 ...
2024-10-28进入21世纪以来,随着信息技术的迅猛发展,大数据已经成为全球最具影响力的技术之一,并成为企业数字化转型的核心驱动力。大数据 ...
2024-10-28随着科技的迅猛发展,数字化转型已成为现代企业保持竞争力和推动增长的关键战略之一。数字化不仅仅是技术的应用,它代表着一种全 ...
2024-10-28银行业正处于一个前所未有的数字化转型时期。在数字经济的驱动下,金融科技如大数据、人工智能、生物识别、物联网和云计算等技术 ...
2024-10-28数据分析可视化是一门艺术与科学相结合的技术,其主要目标是将复杂的数据变得更易于理解和分析。通过将数据以图表的形式呈现,我 ...
2024-10-28数据分析师在现代信息密集型的商业世界中扮演着至关重要的角色。他们通过专业的技能和敏锐的商业洞察力,帮助企业从大量数据中提 ...
2024-10-28