热线电话:13121318867

登录
首页职业发展大数据挖掘才有价值_数据分析师
大数据挖掘才有价值_数据分析师
2014-11-17
收藏

数据挖掘才有价值_数据分析师


  2012年开始,大数据就从一个概念变成了一个词语,并随着时间的流逝变得更加引人注目,到了2014年,大数据显然已经是IT圈里万人瞩目的明星。

  著名研究机构IDC总结的4个V能很好地界定大数据概念,4V分别是容量、类型、速度和价值(volume、variety、velocity和value)。大数据是通过高速捕捉、发现和分析,从大容量数据中获取价值的一种新的技术架构。

  各行各业中对数据挖掘与分析的需求一直存在,大家都希望从海量数据中寻找业务方向和新商机。不同的是随着信息技术的发展,特别是智能手机普及以后,用户参与各类业务所产生的数据总量变多了,能够分析处理挖掘的数据的种类也变多了,相当部分的数据分析报告的时效性要求更高了。

  大数据平台并不意味对原有信息系统基础架构的否定,因为信息系统中现有的生产系统始终存在,客户对关键业务的可靠性和纵向扩展能力的要求不会减少,客户对数据的集中管理的可靠性要求始终存在。大数据平台重新为基础架构添加了更好的计算、更强的存储、更多的数据存储层次,而且所有的大数据应用都需要坚实可靠、灵活高效的大数据平台。

  数据本身就是数据,价值是隐藏在数据中的,需要挖据、整理、分析才能形成有价值的大数据。从这点来讲,并不是比谁的数据库大,谁就是大数据。如果不去应用分析数据,那么这些数据只能用来归档存储而已,形不成价值。如何有效、快速、准确地分析并整理数据,是大数据应用的难点,数据需要经过归类整理、通过优化建模分析,有价值的部分才会浮出数据库。

  例如2014年春节期间,腾讯公司根据QQ用户登录地点变化的数据,统计分析出春节期间人们迁徙地点的变化。同样百度也基于手机用户在春节期间登录地点的变化,给出了某一时间段人群迁移路线图服务这类基于大量数据统计出的结论,不但能作为一种新闻来传播,更可以为春运期间的铁路、公路、民航等交通领域资源调配做建议和参考。在大数据价值分析愈加成熟的背景下,大数据已经可以帮助政府进行更加科学的管理。对企业而言,大数据可以帮助其进行更加精准的营销和传播。比如微博和淘宝的合作,可以依照用户查询历史来进行广告商品的精准推送。

  对于大数据而言,Google和Facebook是最早实施并发掘的公司,他们在大数据的分析和发掘上也远远走在前面。例如Google在全球有数十万台服务器,它背后就是一个全球最大的数据库系统,对这些数据的分析挖掘让Google发现了新的世界。

  其实大数据技术目前依然以开源为主,直到今天也没有谁家形成绝对的技术垄断。即便是IBM、Oracle、SAP、EMC等行业巨头,也同样是将开源的大数据技术与自身原来的产品更好的结合起来,形成具有其产品特色的大数据平台而已。

  虽然商业化的大数据平台基本都集中在国际巨头手中,但并不意味着中国的大数据就落后于时代了。国内最典型的大数据应用当属BAT百度、阿里、腾讯。作为占据国内80%以上网民搜索的百度,推出的百度指数、框计算等功能,无一例外的都是大数据典型应用;阿里旗下的淘宝在去年双十一中引爆了网民的购物狂潮,让随后一个月的时间里,各家快递都还为双十一忙碌,海量的成交数据和各地购物特点的数据分析也让阿里在大数据上占据了电商领域的重要地位;腾讯携旗下的老牌QQ+当红微信,形成了超过10亿活跃用户的大数据基础,由这些海量用户的行为积累的数据分析,也形成了腾讯的巨大财富基础。

  新浪微博和360作为新兴的大数据企业也具有了自己独特的发展特色。新浪微博在更名微博后,显然已经占据了社交媒体的第一把交椅,作为各类新闻、消息的第一发源地,已经成为几乎所有机构、公司、媒体和社交的重要场所,它显然也是大数据的重要用户。360在国内的PC和手机的安全入口占有绝对优势,自然也是这些用户行为数据的获益者,因此360也当之无愧地成为国内大数据应用的典型企业。

  这些巨无霸型的互联网企业已经将大数据玩弄得炉火纯青,那么是否意味着国内大数据产业已经成熟了吗?非也,这些巨无霸远远领先了中国其他行业在信息化建设中的步伐,其自身的大数据应用也都是基于开源系统,由自身强有力的技术团队进行符合自己业务需求的开发,逐步形成了有企业特色的大数据应用。

  与这些互联网巨头相比,行业用户显然不具备他们那样雄厚的技术开发实力,显然不具备将开源大数据系统与自身业务对接的实力。但他们之前就是IBM、Oracle、SAP、EMC等产品的用户,他们可以直接从这些知名厂商获得能和已有业务数据对接的大数据应用平台。当然,这些具体的大数据部署同样要依靠SI等渠道的帮助,所不同的是,目前在国内能够实施大数据平台部署的多数是国际厂商。

  其实今天很多行业用户依然把大数据定位在100TB级别以内,同互联网企业无上限的大数据相比,100TB内存是行业实时分析数据量的上限。SAP的HANA和Oracle的Exadata软硬件一体化大数据产品正好覆盖了这些行业应用领域,这些一体化大数据分析产品也加速了大数据实时分析的可能。与传统放在磁盘阵列中的数据库不同,这些新一代的产品将以往存放在磁盘阵列中的数据压缩后调入内存实时检索,或将数据放在内存和闪存中分层调用,避免I/O读取带来的迟滞。以往用户在查询磁盘阵列中TB级别的数据时,要等待数分钟甚至更多的时间,无法满足海量用户并发查询的需求,而运行在内存中的数据库产品成功解决了用户实时查询的难题。

  从上图可以看到,数据在快速增长,但是用户可容忍的系统延时增长确实有限,因此大数据的处理和响应比是一个重要的指标。从早期GB级的数据库到今天TB级,甚至数百TB级别的数据库,数据增长的速度早已超越了硬件的摩尔定律。既然数据正在经历爆炸式的增长,那么就需要用更新的数据库技术才能将海量数据归类整理,并提取需要的资源。这对大数据分析的厂商提出了新要求。

  中国企业目前缺少大数据实施能力和相关人才,而且大数据分析也不再是单纯的软件或硬件厂商的事情,传统数据库厂商充分利用了最新的服务器技术,像Oracle和SAP已经推出了一体机产品(大数据软件+定制优化的服务器+存储),而硬件服务器/存储厂商也推出了经过充分搭配的大数据一体机,这些一体机产品将是未来大数据市场的一个发展趋势,也是中国企业走向大数据的一个捷径。

数据分析咨询请扫描二维码

最新资讯
更多
客服在线
立即咨询