大数据来袭 企业如何保护非结构化大数据
目前企业已经进入全新的大数据时代。在高带宽、移动的、网络环境中工作和生活的我们,会产生大量的数据,这些都成为大数据的来源,而这些信息很少存在于同一个地方。在几微秒中,信息就能够发布给世界各地的很多人。企业的高管门(包括CEO、CIO、CSO等)都必须面对因为大数据带来的风险和安全挑战,并规划好如何去应对他们。本文将讨论如何看待非结构化数据相对于传统的结构化数据带来的安全风险和挑战以及多层面防护方法。
识别非结构化数据与结构化数据安全保护的差异
信息通常被归类为结构化形式的或非结构化形式的。不同的类型有不同的保护方法。举个例子来说,非结构化的Excel电子数据表实际上包含结构化 的数据。在经典的术语中,结构化的数据是指数据符合某种严格的数据模型和限制的模型。比如,模型可以定义一个业务流程控制信息流经过一些面向服务的架构(SOA)系统,或者也可定义数据如何在内存的一个数组中存储。但是对于大多数IT和数据库管理专家来说,结构化数据是驻留在数据库中,并基于数据库架构和相关数据库规则被组织的信息。而作为一个安全专家来说,这就意味着两个重要的事情:
数据库驻留在数据中心,周围是物理安全设施(包括砖墙、金属柜子等)、网络防火墙和其他安全措施,允许你能够控制对数据的访问。
数据本身的结构化方式通常允许对数据的简单分类。举个例子,你能在数据库中识别一个特定的人的医疗记录和应用相应的安全控制。
所以,因为你知道结构化数据是什么样的以及它驻留在哪里,你有严格的控制机制来决定谁能访问它。对于结构化数据定义和应用安全控制相对简单,要么使用结构内置的特性或者专门为特定结构设计的第三方工具即可完成控制。
而在相比之下,非结构化数据的管理和安全更加困难。非结构化数据能在任何地方、以任何格式、在任何设备上存在,并且在大数据时代能够跨越任何网 络。举个例子说明非结构化数据的应用复杂性,一个病人的记录从数据库中被提取出来显示在一个网页上,从网页拷贝到数据表格中,附在电子邮件中,然后发送到 另外一个网络的邮箱中。
并且,非结构化的数据没有严格的格式。当然,我们的Word文档,电子邮件等符合定义它们内部结构的标准;然而,它们其中包含的数据几乎没有限 制。比如上面列举的那个病人记录的例子,假设一个用户改变内容后把它从网页上拷贝到数据表格中,可能删除了某些字段和标题。因为这个信息从一种格式转变成 了另外一种格式,它原始的机构被有效的改变了。
保护存储成结构化的数据和信息是相对简单的。但是随着一个信息从结构化的形式移转变为非结构化的时候,这个情况就会变得非常的复杂。考虑这样一 个例子,很多分析人士的报告表明在当前的企业组织中,80%或者超过80%的电子信息是非结构化的,还有非结构化数据增长的速度是结构化数据的10到20 倍。也考虑一下媒体上的新闻文章不断强调知识产权的窃取、信息的意外丢失、数据的恶意使用等,最核心的问题就是非结构化的数据。在2010年,全球总的非 结构化的数据估计大概有100万PB(1048576000000GB),被认为将以每年25%的速度增加。我们显然需要去理解我们如何保护非结构化数据 的安全。
非结构化数据需安全保护的“三态”
非结构化的数据在任何给定的时间总是处在三种状态中的一种:非使用、传输中、使用中。非使用也就是在存储设备中;它可能在传输中意味着它从一个地方被拷贝到另一个地方。或者,它可能在使用中(被一些应用程序打开着)。比如一个PDF文件,它可能存储在一个USB设备上,不在使用状态;同一个PDF文件可能从USB设备拷贝,并附在电子邮件中发送到因特网上。PDF从USB设备上被拷贝,通过很多州到电子邮件服务器,通过网络从发件箱到收件箱。最后,收件人收到邮件并打开PDF文件,在那个时刻非结构化数据处于使用状态(驻留在内存中),在一个应用程序的控制下(例如Adobe Reader阅读器),并被呈现给可以交互的用户。
结构化数据转化为非结构化数据带来风险
基于上面三种状态的描述,可以更加详细地讨论目前对保护非结构化数据的挑战。假设企业组织有一个HR的应用程序,它包括一个维护每个员工信息的数据库,包括他们的年度工资、以前的纪律处分信息、个人数据(例如家庭地址和社会安全号码)等。如同大多数现代的HR应用程序一样,它是基于网页的,所以当一个认证的用户运行一个报表的时候,报表是从结构化的数据库过渡到非结构化的数据,以HTML的格式传递给网页浏览器。 用户应用程序能够很容易从浏览器的拷贝和粘贴这个信息到电子邮箱信息和通过其他方式转发。当这个信息一旦添加到邮件正文中,它失去了与原始的应用程序所有 结构和关联。用户可能也会选择只拷贝和粘贴一部分信息,更改一部分信息,或者在原始的信息中添加一些新的内容。收到用户发的电子邮件的人可能会拷贝和粘贴 数据到电子表格。这些电子表格信息可能被用来创建一个图示的信息,使用的原始的一些文本信息在图形上作为标签。如同这个情况所示,结构化信息很快就被三种 状态的改变而转化成了非结构化数据,这些结构化数据从以前的数据库中改变并重构、存储在较小的数据格式中,它们包括电子邮件,文档,图片,视频等等。
企业可能已经很好的定义了安全模型去控制访问HR的应用程序和包含HR信息的数据库。然而,信息需要传递给对有意义的人们或者应用程序。如果它通过网络传输了,企业和用户能确定访问网络是安全的,然而,当信息到达用户时,它能够被转换成数千种不同的格式,发送给各 种各样的应用程序和网络。每个信息存在的地方能够有保护的,它可能应用访问控制对共享文件和控制对数据驻留(内容)的地方和网络的访问;然而,你的非结构 化信息可能在任何地方被终结,因此很难对它保护。事实上,甚至很难对它定位、识别和分类信息。一旦HR的数据终结在电子邮件中,意外的转发给错误的人,它 就没有存储在数据库原始数据的良好结构了。它在从数据库到一个未授权的用户的收件箱的传输过程中,也被复制了好几次。
事实上,在大数据时代,非结构化的数据不断的发生变化,数据终结在你没有预期的地方,特别是因特网提供了一个令人难以置信的由擅长传输非结构化数据的计算机组成的大型网络。大量的金钱和精力投入到去建设社交网络(SNS), 文件共享和协助服务,点对点的应用。点对点提供了无数种将非结构化数据在几秒钟内发布给数十亿的用户。所以我们经常听到关于数据丢失的例子就不足为奇,现 在我们创造了这么多令人惊讶的方法允许信息简单的离开我们保护的边界,我们的网络控制用来阻止攻击者范围受我们保护的数据不再足以让它安全了。
因此,企业高层管理者要充分意识到大数据时代非结构化数据带来的安全风险和冲击,并提前准备好相应的措施来应对它。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
随着大数据时代的深入发展,数据运营成为企业不可或缺的岗位之一。这个职位的核心是通过收集、整理和分析数据,帮助企业做出科 ...
2025-04-11持证人简介:CDA持证人黄葛英,ICF国际教练联盟认证教练,前字节跳动销售主管,拥有丰富的行业经验。 本次分享我将以教培行业为 ...
2025-04-11近日《2025中国城市长租市场发展蓝皮书》(下称《蓝皮书》)正式发布。《蓝皮书》指出,当前我国城市住房正经历从“增量扩张”向 ...
2025-04-10在数字化时代的浪潮中,数据已经成为企业决策和运营的核心。每一位客户,每一次交易,都承载着丰富的信息和价值。 如何在海量客 ...
2025-04-09数据是数字化的基础。随着工业4.0的推进,企业生产运作过程中的在线数据变得更加丰富;而互联网、新零售等C端应用的丰富多彩,产 ...
2025-04-094月7日,美国关税政策对全球金融市场的冲击仍在肆虐,周一亚市早盘,美股股指、原油期货、加密货币、贵金属等资产齐齐重挫,市场 ...
2025-04-08背景 3月26日,科技圈迎来一则重磅消息,苹果公司宣布向浙江大学捐赠 3000 万元人民币,用于支持编程教育。 这一举措并非偶然, ...
2025-04-07在当今数据驱动的时代,数据分析能力备受青睐,数据分析能力频繁出现在岗位需求的描述中,不分岗位的任职要求中,会特意标出“熟 ...
2025-04-03在当今数字化时代,数据分析师的重要性与日俱增。但许多人在踏上这条职业道路时,往往充满疑惑: 如何成为一名数据分析师?成为 ...
2025-04-02最近我发现一个绝招,用DeepSeek AI处理Excel数据简直太爽了!处理速度嘎嘎快! 平常一整天的表格处理工作,现在只要三步就能搞 ...
2025-04-01你是否被统计学复杂的理论和晦涩的公式劝退过?别担心,“山有木兮:统计学极简入门(Python)” 将为你一一化解这些难题。课程 ...
2025-03-31在电商、零售、甚至内容付费业务中,你真的了解你的客户吗? 有些客户下了一两次单就消失了,有些人每个月都回购,有些人曾经是 ...
2025-03-31在数字化浪潮中,数据驱动决策已成为企业发展的核心竞争力,数据分析人才的需求持续飙升。世界经济论坛发布的《未来就业报告》, ...
2025-03-28你有没有遇到过这样的情况?流量进来了,转化率却不高,辛辛苦苦拉来的用户,最后大部分都悄无声息地离开了,这时候漏斗分析就非 ...
2025-03-27TensorFlow Datasets(TFDS)是一个用于下载、管理和预处理机器学习数据集的库。它提供了易于使用的API,允许用户从现有集合中 ...
2025-03-26"不谋全局者,不足谋一域。"在数据驱动的商业时代,战略级数据分析能力已成为职场核心竞争力。《CDA二级教材:商业策略数据分析 ...
2025-03-26当你在某宝刷到【猜你喜欢】时,当抖音精准推来你的梦中情猫时,当美团外卖弹窗刚好是你想吃的火锅店…… 恭喜你,你正在被用户 ...
2025-03-26当面试官问起随机森林时,他到底在考察什么? ""请解释随机森林的原理""——这是数据分析岗位面试中的经典问题。但你可能不知道 ...
2025-03-25在数字化浪潮席卷的当下,数据俨然成为企业的命脉,贯穿于业务运作的各个环节。从线上到线下,从平台的交易数据,到门店的运营 ...
2025-03-25在互联网和移动应用领域,DAU(日活跃用户数)是一个耳熟能详的指标。无论是产品经理、运营,还是数据分析师,DAU都是衡量产品 ...
2025-03-24