对话数据技术专家—大数据发展思考
近两年,“大数据”已成为业界和学术界舌尖上的热词,它时刻准备着改造社会,从民生到商业,从医疗到教育……,大数据正成为新的经济推动力和重要的生产资料。但是,在欢呼和激动了数年后,我们更需要认真思考如何利用大数据、如何正确挖掘出大数据的价值。2014年底,Informatica中国区的几位资深技术专家与国内IT媒体记者,就大数据的思维、技术和发展等问题进行了深入探讨与剖析。
大数据思路已有,离成功尚远
大数据真正开始做始于去年,通过两年的尝试、积累,思路已有,但离成功还很远。一些国外的大数据案例、大数据故事无非是商务智能(BI)、数据仓库(BW)的改头换面,新瓶装旧酒而已。就如数据仓库一样,建设了近20年才让每个企业真正承认其价值,大数据也不能期望很快就获得成功,需要一个沉淀时间。
大数据发展可以用一个波浪式的图来形容,现在还处于第一个峰顶,必须经过低谷再升起,几轮反复。这期间,大家可能会看到许多大数据真实的案例,不管是成功的还是失败的都会给我们启示。只要尝试了就不一定完全失败,就如数据仓库建设,几年前很多报告都显示80%的项目失败,但仔细分析后发现,只是在发展过程当中没有达到预期价值而已。前人淌过的路,后边的人可以少走一些雷区。
真正的大数据思维:允许数据的不精确性
以前,由于可获得的数据量比较小,为此我们必须尽量准确的记录下所获得的所有数据,做出个KPI供领导参考,采样过程的精确度被放在重要的地位。显然,这种对精确性的执着是信息缺乏时代的产物。大数据时代,数据的收集问题不再成为困扰,采集全量的数据成为现实,但海量数据的涌现一定会增加数据的混乱性且造成结果的不准确性,如果仍执迷精确性,那么将无法应对这个新的时代。
大数据通常都用概率说话,且大数据处理之前是可以对之进行清洗从而减少部分的错误数据。所以,与致力于避免错误相比,对错误的包容将会带给我们更多信息。其实,允许数据的混杂性和容许结果的不精确性才是我们拥抱大数据的正确态度,只要做到10%准确结果,能够达成业务数十倍的增长即可,这是真正的大数据思维,未来我们应当习惯这种思维。
大数据不是一个纯技术的问题
大数据不是一个纯技术问题,会包含很多管理、业务方面的内容。并不是说,购买了一套数据挖掘工具,组建了一个Hadoop环境,就能称为做了大数据。除了设备、技术上的投资,企业还需要从组织结构、人员意识、管理方式、企业文化等方面都有一个转变。大数据的前期准备工作很多,这是一种思维上的全面变革。大家都是摸着石头过河,走一步想一想,然后再走一步再想,直到最后成功上岸。
在这样的一个过程当中,人们的思想还要跟随大数据技术的发展不断更新,同时也要对一些过去的想法进行纠正和改变。当然,这个时间不会像以前数据仓库那样花费20年,大数据可能会缩短一半时间。因为数据仓库时代是从无到有,而大数据时代是从有到更好,人们已经从建设数据仓库中积累了很多的经验、技术、教训,甚至有效的管理方法,可以很好地借鉴。
大数据技术解决的是非结构化数据的问题,非也
新兴的大数据技术提供了非常有效的手段,让人们可以花很低的代价去分析、处理非结构化的数据,但是这些非结构化数据有一个特点,就是密度还很低,它远不如结构化数据有非常高的价值密度,可能100G的非结构化数据,最终有效的才1G。这表明,非结构化数据是对数据完整度的很大补充,但是并不能说大数据就是做非结构化数据,其实最终的目的还是要发掘数据价值。另外一方面,传统的数据仓库已经能够完成现有结构化数据90%的利用程度,在这种背景下,人们才会把大数据的焦点放在对非结构化的处理上。
当前,非结构化数据大量产生,如机器日志、传感器的数据、社交媒体的数据,都是以非结构化形式存在,而传统的方式对这些数据的处理能力比较欠缺。如果用木桶效应来比喻,首先要把这个短板补上,与结构化数据处理的效率和能力齐平之后,更多的就是围绕数据如何使用来进行更深一步的研究。还要认识到一点,大数据技术能够处理半结构化、非结构化的数据,不过,这些数据总是要转换成结构化的数据才能分析,算法可能输入的是非结构化的,如视频信息,但是刚进来不到10秒就变成结构化,最后显示出来的还是表格式结构化的结果。
大数据应用的必要前提
在纷繁杂乱的大数据面前,没有良好的数据质量,没有更加良好的数据管理策略,用于业务应用的投资将随着应用组合在企业内的增长和扩展而日渐缩水。做大数据,90%的企业走的路子都不可能实现放烟花式的很炫效果,他们首先还是要踏踏实实地解决数据整合、数据质量和主数据管理等问题,而这些恰恰是Informatica公司的核心竞争力所在。
现在,越来越多的企业从以前的粗犷式数据管理方式向精细化方向发展,更加注重数据质量和主数据管理,注重全数据视图的构建等等。目前,Informatica已经有了11个方面,30多小项的解决方案,Informatica数据集成平台提供了将数据转化为可信、可行且可靠的信息资产所需的全部功能,可以随时随地集成任何的数据碎片、控制企业内或“云中”数据、高速传送数据、与合作伙伴共享数据、查找并解决数据质量问题、给予您凭借数据主动采取行动的能力、创建针对最重要数据资产的可靠视图等等,这些技术组合能够天衣无缝地配合运作,且可通过有效利用硬件基础设施来降低总体拥有成本,实现更精细化数据管理。
大数据时代,隐私高于一切
近两年,国家政府着重强调信息安全,企业都非常关注数据安全问题。敏感的个人、财务和健康信息受到多种不同行业和政府数据隐私法规的管制,如果企业无法保持数据隐私,他们就会面临严重的财务和法律惩罚,同时还会在客户与市场信心方面蒙受可观损失。在这种情况下,数据脱敏技术应运而生,并且在最近两年,开始被越来越多的企业用户所采用。Informatica在数据读取和使用两方面使用动态或静态的数据脱敏手段来保证数据的隐私,在保存数据原始特征的同时改变它的数值,从而保护敏感数据免于未经授权的访问,同时又可以进行相关的数据处理。
2014年,Informatica数据安全方案因满足市场热点需求而成为业务增长较快的单元。而另一种市场需求很大的是数据归档类方案。企业经过几年发展,积累了大量历史数据希望存档,Informatica提供了一些运算、存储等系列新技术,能够对历史数据进行归档、留存及分析,实现全生命周期数据的管理。
Informatica的 IDP理念
大数据时代最缺乏的是什么?是对数据能够有效掌握和分析的人,这不仅仅是指高端的数据分析专家,更是包括能够有效的获取和利用数据价值的企业业务人员。Informatica IDP(Intelligent Data Platform)智能数据集成平台,可以让业务部门成为真正数据受益者,IDP直接面向业务部门,将人员、位置与事物以更加智能的方式紧密相连,业务人员可以根据自己的需求,自助式的获得他所要的数据。
从实现手段来看,IDP并不是一个IT工具,更像是一个平台,包括数据的自助式服务、数据的虚拟化等等,这些方法从底层通过技术的手段将各种各样的数据呈现到最终业务用户面前,让他们自由地选择希望使用、浏览、分析什么样的数据,甚至能够参与到数据的操作过程中来。目前IDP还没有落地的产品,但是从发展理念来看,这是将Informatica传统业务、优势产品与智能化产品进行组合的一整套解决方案。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在当今数据驱动的时代,数据分析能力备受青睐,数据分析能力频繁出现在岗位需求的描述中,不分岗位的任职要求中,会特意标出“熟 ...
2025-04-03在当今数字化时代,数据分析师的重要性与日俱增。但许多人在踏上这条职业道路时,往往充满疑惑: 如何成为一名数据分析师?成为 ...
2025-04-02最近我发现一个绝招,用DeepSeek AI处理Excel数据简直太爽了!处理速度嘎嘎快! 平常一整天的表格处理工作,现在只要三步就能搞 ...
2025-04-01你是否被统计学复杂的理论和晦涩的公式劝退过?别担心,“山有木兮:统计学极简入门(Python)” 将为你一一化解这些难题。课程 ...
2025-03-31在电商、零售、甚至内容付费业务中,你真的了解你的客户吗? 有些客户下了一两次单就消失了,有些人每个月都回购,有些人曾经是 ...
2025-03-31在数字化浪潮中,数据驱动决策已成为企业发展的核心竞争力,数据分析人才的需求持续飙升。世界经济论坛发布的《未来就业报告》, ...
2025-03-28你有没有遇到过这样的情况?流量进来了,转化率却不高,辛辛苦苦拉来的用户,最后大部分都悄无声息地离开了,这时候漏斗分析就非 ...
2025-03-27TensorFlow Datasets(TFDS)是一个用于下载、管理和预处理机器学习数据集的库。它提供了易于使用的API,允许用户从现有集合中 ...
2025-03-26"不谋全局者,不足谋一域。"在数据驱动的商业时代,战略级数据分析能力已成为职场核心竞争力。《CDA二级教材:商业策略数据分析 ...
2025-03-26当你在某宝刷到【猜你喜欢】时,当抖音精准推来你的梦中情猫时,当美团外卖弹窗刚好是你想吃的火锅店…… 恭喜你,你正在被用户 ...
2025-03-26当面试官问起随机森林时,他到底在考察什么? ""请解释随机森林的原理""——这是数据分析岗位面试中的经典问题。但你可能不知道 ...
2025-03-25在数字化浪潮席卷的当下,数据俨然成为企业的命脉,贯穿于业务运作的各个环节。从线上到线下,从平台的交易数据,到门店的运营 ...
2025-03-25在互联网和移动应用领域,DAU(日活跃用户数)是一个耳熟能详的指标。无论是产品经理、运营,还是数据分析师,DAU都是衡量产品 ...
2025-03-24ABtest做的好,产品优化效果差不了!可见ABtest在评估优化策略的效果方面地位还是很高的,那么如何在业务中应用ABtest? 结合企业 ...
2025-03-21在企业数据分析中,指标体系是至关重要的工具。不仅帮助企业统一数据标准、提升数据质量,还能为业务决策提供有力支持。本文将围 ...
2025-03-20解锁数据分析师高薪密码,CDA 脱产就业班助你逆袭! 在数字化浪潮中,数据驱动决策已成为企业发展的核心竞争力,数据分析人才的 ...
2025-03-19在 MySQL 数据库中,查询一张表但是不包含某个字段可以通过以下两种方法实现:使用 SELECT 子句以明确指定想要的字段,或者使 ...
2025-03-17在当今数字化时代,数据成为企业发展的关键驱动力,而用户画像作为数据分析的重要成果,改变了企业理解用户、开展业务的方式。无 ...
2025-03-172025年是智能体(AI Agent)的元年,大模型和智能体的发展比较迅猛。感觉年初的deepseek刚火没多久,这几天Manus又成为媒体头条 ...
2025-03-14以下的文章内容来源于柯家媛老师的专栏,如果您想阅读专栏《小白必备的数据思维课》,点击下方链接 https://edu.cda.cn/goods/sh ...
2025-03-13