大数据时代的数据分析浅析-CDA数据分析师官网

热线电话：13121318867

大数据时代的数据分析浅析

2018-02-10

大数据时代的数据分析浅析

近些年，由于以社交网站、基于位置的服务LBS 等为代表的新型信息产生方式的涌现，以及云计算、移动和物联网技术的迅猛发展，无处不在的移动、无线传感器等设备无时不刻都在产生数据，数以亿计用户的互联网服务时时刻刻都在产生着数据交互，大数据时代已经到来。在当下，大数据炙手可热，不管是企业还是个人都在谈论或者从事大数据相关的话题与业务，我们创造大数据同时也被大数据时代包围。虽然大数据的市场前景让人充满期待，但是在公众眼中，对于数据量早已逾越TB、增长率惊人、实时性高的大数据，如何分析、管理、利用大数据等工作仍将面临若干的挑战。
    目前，对于大数据的定义尚未达成完全的共识。维基百科对大数据的定义为：所涉及的资料量规模巨大到无法通过目前主流软件工具，在合理时间内达到获取、管理、处理、并整理帮助企业经营决策更积极目的的资讯。互联网数据中心对大数据的定义为：为更经济地从高频率的、大容量的、不同结构和类型的数据中获取价值而设计的新一代构架和技术。所有对大数据的定义基本上是从大数据的特征出发，通过这些特征的阐述和归纳给出其定义。在这些定义中，可将大数据的特点总结为：规模性（volume）、多样性（variety）、高速型（velocity）和价值性（value）。
   1.大数据的可视化分析
    从最初的数据集成到数据分析，直到最后的数据解释，数据易用性应当贯穿整大数据分析的流程。大数据时代的数据量大且数据结构多样化，其复杂程度早已超过了传统意义上的关系数据库。另外，随着大数据已经渗透到人们生活的各个领域，很多行业都开始增加对大数据的需求。但普通用户往往更关心结果的展示，数据的复杂性限制了普通用户从大数据中直接获取知识。因此，数据的可视化在进行大数据的分析工作时应当被研究工作者加以重视并进一步提升。
    （1）可视化技术。可视化技术是目前解释大量数据最有效的手段之一，通过将分析结果用形象的可视化方式向用户展示结果，且图形化方式比传统的文字展示方式更容易理解与接收。在数据可视化中，数据结果展现从底层的平台处理的数据挖掘结果中的图片，映射关系或表格，以简单，友好，医用的图形化，智能化的形式呈现给用户供其分析使用。目前面对大数据常见的可视化技术有标签云（tag cloud）、历史流（history flow）、空间信息流（spatial information flow）等。对级数达到PB 甚至更大的大数据，传统的图表方式已经很难实现其可视化，需引进能够快速而准确地处理海量数据的科学计算方法。科学计算可以用2D,3D 的图形实现数据的可视化，为数据分心及研究提供了更加直观的表现形式，其涉及计算机图形学，图像处理，计算机视觉及图形用户界面等多个研究领域。数据的可视化全球最大的商业网站之一eBay 选择Tableau 公司提供的数据可视化软件，使得在给定的时间内，所有员工都能够看到图形化的搜索联系及监督客户的反馈及情感分析，为eBay 带去了商业的洞察力。
    （2）Web 可视化。网络的飞速发展、网络性能的不断提升，使得基于Web 的数据可视技术成为一个热点。网络上已有很多的Web 图表工具，它们常用来展现股票、天气数据等。目前最为广泛使用的是JavaScript、Flash、Java Applet 等，这些技术都可以实现在Web 上的图形绘制。对于需要处理万级以上的大数据量的科学计算数据，可以采用EJSChart 或者JFreeChart，其绘图速度快、兼容性强且具有良好的交互性，可以作为首选的绘图工具；对于绘图工具的开发，可以选择JavaScript 和Flash，这两者绘图速度快且差异不大。现在很多浏览器支持HTML5，包括手机和平板电脑，如果要求具有更好的跨平台兼容性，JavaScript 是个不错的选择。
    2.数据挖掘常用的方法
    在大数据时代，数据挖掘是最关键的工作。大数据的挖掘是从海量、不完全的、有噪声的、模糊的、随机的大型数据库中发现隐含在其中有价值的、潜在有用的信息和知识的过程，也是一种决策支持过程。其主要基于人工智能，机器学习，模式学习，统计学等。通过对大数据高度自动化地分析，做出归纳性的推理，从中挖掘出潜在的模式，可以帮助企业、商家、用户调整市场政策、减少风险、理性面对市场，并做出正确的决策。目前，在很多领域尤其是在商业领域如银行、电信、电商等，数据挖掘可以解决很多问题，包括市场营销策略制定、背景分析、企业管理危机等。大数据的挖掘常用的方法有分类、回归分析、聚类、关联规则、神经网络方法、Web 数据挖掘等。这些方法从不同的角度对数据进行挖掘。
    （1）分类。分类是找出数据库中的一组数据对象的共同特点并按照分类模式将其划分为不同的类，其目的是通过分类模型，将数据库中的数据项映射到摸个给定的类别中。可以应用到涉及到应用分类、趋势预测中，如淘宝商铺将用户在一段时间内的购买情况划分成不同的类，根据情况向用户推荐关联类的商品，从而增加商铺的销售量。
    （2）回归分析。回归分析反映了数据库中数据的属性值的特性，通过函数表达数据映射的关系来发现属性值之间的依赖关系。它可以应用到对数据序列的预测及相关关系的研究中去。在市场营销中，回归分析可以被应用到各个方面。如通过对本季度销售的回归分析，对下一季度的销售趋势作出预测并做出针对性的营销改变。
    （3）聚类。聚类类似于分类，但与分类的目的不同，是针对数据的相似性和差异性将一组数据分为几个类别。属于同一类别的数据间的相似性很大，但不同类别之间数据的相似性很小，跨类的数据关联性很低。
    （4）关联规则。关联规则是隐藏在数据项之间的关联或相互关系，即可以根据一个数据项的出现推导出其他数据项的出现。关联规则的挖掘过程主要包括两个阶段：第一阶段为从海量原始数据中找出所有的高频项目组；第二极端为从这些高频项目组产生关联规则。关联规则挖掘技术已经被广泛应用于金融行业企业中用以预测客户的需求，各银行在自己的ATM 机上通过捆绑客户可能感兴趣的信息供用户了解并获取相应信息来改善自身的营销。
    （5）神经网络方法。神经网络作为一种先进的人工智能技术，因其自身自行处理、分布存储和高度容错等特性非常适合处理非线性的以及那些以模糊、不完整、不严密的知识或数据为特征的处理问题，它的这一特点十分适合解决数据挖掘的问题。典型的神经网络模型主要分为三大类：第一类是以用于分类预测和模式识别的前馈式神经网络模型，其主要代表为函数型网络、感知机；第二类是用于联想记忆和优化算法的反馈式神经网络模型，以Hopfield 的离散模型和连续模型为代表。第三类是用于聚类的自组织映射方法，以ART 模型为代表。虽然神经网络有多种模型及算法，但在特定领域的数据挖掘中使用何种模型及算法并没有统一的规则，而且人们很难理解网络的学习及决策过程。
    （6）Web数据挖掘。Web数据挖掘是一项综合性技术，指Web 从文档结构和使用的集合C 中发现隐含的模式P，如果将C看做是输入，P 看做是输出，那么Web 挖掘过程就可以看做是从输入到输出的一个映射过程。其流程如图所示：

图1 Web数据挖流程图
    当前越来越多的Web 数据都是以数据流的形式出现的，因此对Web 数据流挖掘就具有很重要的意义。目前常用的Web数据挖掘算法有：PageRank算法，HITS算法以及LOGSOM 算法。这三种算法提到的用户都是笼统的用户，并没有区分用户的个体。目前Web 数据挖掘面临着一些问题，包括：用户的分类问题、网站内容时效性问题，用户在页面停留时间问题，页面的链入与链出数问题等。在Web 技术高速发展的今天，这些问题仍旧值得研究并加以解决。
    3.数据分析技术
    数据的分析是大数据处理的核心。传统数据分析主要是针对结构化数据，其大致过程为：首先利用数据库存储结构化数据，在此基础上构建数据仓库，根据需要再构建相应立方体并进行联机分析处理。这一过程在处理相对较少的结构化数据时非常高效。但对于大数据而言，分析技术面临3 个直观问题：大容量数据、多格式数据及分析速度，这使得标准存储技术无法对大数据进行存储，从而需要引进更加合理的分析平台进行大数据分析。目前，开源的Hadoop 是广泛应用的大数据处理技术，它也是分析处理大数据的核心技术。
   Hadoop是一个基于Java的分布式密集数据处理和数据分析的软件框架，用户可以在不了解分布式底层细节的情况下，开发分布式程序，充分利用集群的威力高速运算和存储。其基本工作原理为：将规模巨大的数据分解成较小、易访问的批量数据并分发到多台服务器来分析。主要包括文件系统（HDFS）、数据处理（MapReduce）两部分功能模块，最底层是HDFS 用来存储Hadoop集群中所有存储节点上的文件，HDFS 上一层是MapReduce 引擎，该引擎由Job Trackers 和Task Trackers 组成。其组成架构如图所示：

图2Hadoop组成架构图
    鉴于商用的硬件集群上。所谓商用硬件并非低端硬件，其故障率比低端硬件要低很多。Hadoop不需要运行在价格昂贵并且高度可靠的硬件上，即使对于节点故障的几率较高的庞大集群，HDFS在遇到故障时仍能够继续运行且不让用户察觉到明显的中断，这种设计降低了对机器的维护成本，尤其是在用户管理上百台甚至上千台机器时。
   Hadoop的设计是基于一次写入、多次读取的高效访问模式。每次对数据的分析会涉及到数据所在的整个数据集，这种高数据的吞吐量会造成高的时间延迟，对于低延迟的数据访问，HBase是更好的选择。HDFS 采用master/slave 的构架，即一个HDFS集群由一个NameNode（master）和多个DataNode（slave）组成。NameNode 是一个中心服务器，负责管理HDFS 的命名空间，并维护HDFS 的所有文件及目录。这些信息以命名空间镜像文件和编辑日志文件的形式永久地保存在本地磁盘上。它还记录着每个文件中各个块所在的DataNode 信息，但不永久保存块的位置信息，因为DataNode 会在系统启动时重新建立新的位置信息。同时，NameCode 还负责控制外部Client 的访问。
    DataNode 是HDFS 的工作节点，在集群中一般为一个机器节点一个，负责管理节点上附带的存储。它们根据客户端需要或NameNode 调度存储并检索数据块（Block），执行创建、删除和复制数据块的命令，并定期向NameNode 发送存储数据块列表的动态信息，NameNode 获取每个DataNode 的动态信息并据此验证块映射和文件系统元数据。
   3.2 MapReduce
    MapReduce是用于处理大数据的软件框架。其核心设计思想为：将问题分块处理，把计算推到数据而非把数据推向计算。最简单的MapReduce应用程序至少包含3 个部分：Map函数、Reduce 函数和main函数，其模型相对简单，将用户的原始数据进行分块，然后交给不同的Map任务区执行Map函数处理输出中间结果，Reduce函数读取数据列表并对数据进行排序并输出最终结果。其流程如图所示：
   3.3Hadoop的优势及问题
   Hadoop是一个能够对大量数据进行分布式处理的软件框架，同时是以一种可靠、高效、可伸缩的方式进行处理。可靠是因为它假设计算元素和存储会失败，因此它维护多个工作数据副本，确保能够针对失败的节点重新分布处理；高效是因为它以并行的方式工作，通过并行处理加快处理速度；可伸缩是说它能够处理PB 级数据。
    但与其他新兴科技一样，Hadoop同样面临一些需要解决的问题。（1）目前Hadoop缺乏企业级的数据保护功能，开发人员必须手动设置HDFS 的数据复制参数，而依赖开发人员来确定复制参数很可能会导致对存储空间的浪费。（2）Hadoop需要投资建设专用的计算集群，但这通常会产生独立存储、计算资源以及存储或CPU 资源利用问题，且这种存储在与其他程序的共享问题中也存在兼容性问题。
   4.预测性分析能力
    对数据挖掘可以让用户更好的理解数据，而对大数据进行预测性分析可以让用户根据可视化分析和数据挖掘的结果做出一些预测性的判断。
    与传统的数据分析相比较，大数据分析的一个重要目标就是从海量，数据繁多的数据库中找出隐藏的规律，使数据库发挥最大的价值。数据的价值远不止于数据本身，而是隐藏在数据之间的关系隐含的知识。比如，现在企业与客户之间的接触途道和界面越来越丰富，而这些途径承载了客户与企业之间、客户与产品之间、客户与品牌之间的大量互动信息与数据。如果可将这些数据整合，企业便有更多的机会准确了解现有的用户及挖掘潜在的用户群体。
    为了充分发挥和利用大数据的价值，对可视化分析及数据挖掘后的结果进行预测性分析。在大数据时代，对数据进行预测性分析，为企业带来了洞察客户的机会，更全面更深入地了解和把握客户的需求特征、兴趣爱好、消费倾向和消费心理等，帮助企业提升运营管理能力及绩效。
    5.结论
    随着数据爆炸式的增长，我们正被各种数据包围着。正确利用大数据将给人们带来极大的便利，但与此同时也给传统的数据分析带来了技术的挑战。本文对大数据的分析关键技术进行了详细的分析，主要阐述了大数据分析时的可视化技术、挖掘技术、分析技术以数据挖掘后的预测性分析问题。总的来说，虽然我们已经进入大数据时代，但是“大数据”技术还仍处于起步阶段，进一步地开发以完善大数据分析技术仍旧是大数据研究课题的热点。