一个大数据应用是如何炼成的
经历了多年的BI专题应用建设,有幸能在一个传统企业里探索大数据应用的建设过程,发现了很多不一样的地方,获得了不同的感受,在此以一个真实的案例的建设过程来品味其中的不同,也许能获得一些启示。
课题是怎么来的?
大数据应用最大的挑战,就是未来的不确定性,因此,传统公司动辄提前半年进行投资预算规划的方式是不太适合大数据的。
做大数据几年,虽然说现在靠谱的大数据的商业模式也就在广告、金融、公益等方面,但真要下决心干某个大数据应用项目,其突发性、偶然性也非常强,因为对于大数据这个不成熟事物,无论是哪类公司,观望占了很大部分,对大数据的质疑有之,对于大数据安全的惶恐有之,对于合作模式的疑惑有之,更多的是不停的提出想法,不停的被否定。
企业顺应大势成立了大数据团队,最痛苦的是不知道干什么,什么能干,什么不能干,也没啥可借鉴的经验,这跟当前创业公司也类似吧,不知道哪种模式是靠谱的。
大数据几乎无所不能,但真要做起来,其实当前是能者寥寥,虽然趋势不可挡,但这一波搞大数据应用的,似乎大多要死在黎明前,一个概念从提出到最终普世大众,的确路慢慢儿修远兮。
今天要聊的,是个公益课题,电话反欺诈,课题有一定的偶然性,安全部门提到了,问我们能不能做做看,感觉社会意义很大,比如腾讯有反欺诈盒子,360有拦截系统,本来某公司希望来做这个课题,但综合各方面因素,还是决定自己做。
作出这个决策的实际一天不到,所以决定自己做,基于以下几个因素:
一是这个大数据应用是有显著效益的。
二是很好评估,不像很多BI应用产出无法评估,备受质疑 。
三是公司大数据平台建立了,提供了基础条件。
四是自主建模团队建立了一年多了,不需要太依赖合作伙伴,因此也无需走那套冗长的招标流程,失败的代价也会小。团队如何组建?
跟传统的安排不同,抛出这个课题后,主动接受这个挑战的,却是一名从一线刚过来的同事,面对不确定性,想来大多数有资历的员工也会犹豫老半天吧,这个也有一定偶然性。
谷歌讲到了招聘人才,提到了无论多大代价也要找到创意精英,而做大数据,更加需要,需要主动型的创意精英,如果传统企业每个人仍然像传统那样局限在自己一亩三分地,很难有创新突破。
很幸运,我们有一只黑天鹅。
这种自愿组队模式的确有很大的好处,不按计划分配,尊重个人的意愿,更能激发人的主动性,团队组建也非常快,当天组队,第二天就开干,不存在类似项目的繁琐流程。
虽然团队成立有一定的偶然性,但的确与与企业近年来在大数据组织创新、人才引进和人员流动上的努力分不开。
假如没有大数据组织的成立,谁牵头都是个问题;假如不扔掉传统的包袱,很难有人专心做这个;假如没有企业内的人才流动和外部人才的引入,我们也干不了这个事。
平台资源如何解决?
在那个传统BI小型机时代,要做一个项目,抛开硬件资源环境的投资立项过程不说,光是一个新项目的集成估计也不止一个月。
而这个项目不同之处是:
一是基于大数据平台的租户能力,资源申请所见即所得,加上流程,一周内全部搞定。
二是提供的组件较为丰富,特别是流处理资源的快速提供,为反欺诈的实时性提供了坚实的基础,换在几年前基本不可能 。
三是公司技术团队的保障,使得大多技术问题得以尽快解决,这也有赖于公司在大数据平台上的末雨绸缪。
某人说过,凡是能用钱解决的问题都不是问题,但技术这个东西,虽然用钱的确可能解决,但对于大多数公司,钱都是个大问题,因此技术问题的解决又是何其艰难。
比如我们碰到Kafka的一些问题,长期难解决,大多企业的机制流程恐怕也不允许随便开价100万招个技术专家来解决吧,传统企业的自我技术进步是部血泪史,外面的专家开价开不起,自己的专家起来了,又怕被人家挖。
开发历程
敏捷开发现在提得很多了, 但感觉以前BI的建设就是最大的敏捷,最极致的情况,一个人搞定需求、开发、上线和维护,当然,现在软件工程的确还是要靠分工协作,需要一套方法论来解决显性迭代和维护配合的问题。
大数据创新太特殊了,没必要循规蹈矩,抛开全部的束缚,一切要为速度让步。原因是失败可能性很大,速度越快成本越低,同时既然对于公司原有业务没有影响,因此可以放手去干,什么文档都可以不要,什么既定流程都可以不遵守,反正光脚不怕穿鞋的。
因此,这个课题做的非常快。
第10天,做出一个反欺诈简单模型,包括了案例分析、数据准备、数据建模及验证等,我们的观点是第一个版本可以粗糙一点,希望尽快验证这个事情的可行性,否则一切都是徒劳,因此就是讨论和验证数据。
当时规定两个礼拜如果出不了结果,就会放弃,这类应用失败可能性很高, 但船小好调头,以后做一些创新,都建议给创新做个时间止损点。
第25天,生产完成部署,也就是具备系统支撑能力, 除了系统部署方案需要专业部门把关,其他基本是能省就省,当时的想法是,这类创新项目最好一个月就能搞上线,起码能测试吧,相对以前BI应用项目动辄半年甚至1年的节奏,的确大不同。
创新,速度始终是王道,因此日报变成刚需,也回忆起了某位离职运营商去创业的一个领导,他说每天凌晨就要看昨天的日报,以便安排当天的工作,我们可能做不到这么疯狂,但日报的节奏是对的。
第30天,一直在外呼现场进行验证迭代,直到36天,获得认可为止,以后就是持续调优,但这个数据已经可以投入生产了。一般电话诈骗很难在事中干预,但这个模型做到了,准确度达到90%以上,通过实时事中干预挽回收入损失超千万。
这个应用就是中国移动的天盾大数据反欺诈系统,它就是这么诞生的,没有什么大汇报,没有什么流程,就是很轻很轻的来了。
现在算法还有很多问题,反欺诈矛与盾的争夺是很艰辛的,面上的风光底下是每天建模师的艰苦卓绝的努力,上了很多新算法,很多很多失败,拉低了成功率,对于这个大家是异常焦虑的,群里总是不停的讨论,大家都知道这个是核心竞争力,路还很长,还需要坚持。
小结
这个应用还难言成功,只是传统企业在大数据应用上的一次不同的尝试,但不管怎样,互联网快速迭代的那套的确是给了很大的启示,自己做了,才知道原来的差距是如此巨大,自己的能力是如此脆弱。
从课题的角度讲,要认识到大数据这个事物的不确定性,选择它具有偶然性,没有规划能预料到这个,当前大数据变现商业模式也并不成熟,不要奢望投资大数据马上有产出,也许能力储备是第一位的。
从组织的角度讲,大数据人才属于稀缺人才,要么打破原有框架,不拘一格外部找人才,要么充分企业内挖潜,让人员能流动起来。流动的人才有一个特点,即至少有一颗骚动的心,主动性对于做成功一件事极为重要。
从能力的角度讲,假如要向大数据转型,则还是要对“没有一个大数据公司,能依靠合作伙伴获得成功”这句话有所敬畏,大数据的核心能力要掌握在自己手里。
从平台的角度讲,如果没有大数据平台的建立,这个项目能够有效果也许是半年以后的事情,但机会稍纵即逝,没人会等你这么久,因此此类基础设施建设不能犹豫,“书到用时方恨少”。
从开发的角度讲,先设定一个小目标,搞他个十万八万的,只要有点看得见的产出就行啊,快速迭代,始终是王道,失败了也没什么大不了,我们缺的就是经验,多头并行也不是不可以,只要有足够的创意精英。
当然说易行难,以上几点对于大多数公司来说是如此不易,也不能以一个应用的成功与否说明任何问题,大数据要成功,就像黑天鹅,有一定偶然性,但如果连准备的勇气都没有,没有一点实质改革的动作,就没有任何成功的可能了。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据分析领域,Excel作为一种普及率极高且功能强大的工具,无疑为无数专业人士提供了便捷的解决方案。尽管Excel自带了丰富的功 ...
2025-01-17在这个瞬息万变的时代,许多人都在寻找能让他们脱颖而出的职业。而数据分析师,作为大数据和人工智能时代的热门职业,自然吸引了 ...
2025-01-14Python作为一门功能强大的编程语言,已经成为数据分析和可视化领域的重要工具。无论你是数据分析的新手,还是经验丰富的专业人士 ...
2025-01-10完全靠数据决策,真的靠谱吗? 最近几年,“数据驱动”成了商界最火的关键词之一,但靠数据就能走天下?其实不然!那些真正成功 ...
2025-01-09SparkSQL 结构化数据处理流程及原理是什么?Spark SQL 可以使用现有的Hive元存储、SerDes 和 UDF。它可以使用 JDBC/ODB ...
2025-01-09在如今这个信息爆炸的时代,数据已然成为企业的生命线。无论是科技公司还是传统行业,数据分析正在深刻地影响着商业决策以及未来 ...
2025-01-08“数据为王”相信大家都听说过。当前,数据信息不再仅仅是传递的媒介,它成为了驱动经济发展的新燃料。对于企业而言,数据指标体 ...
2025-01-07在职场中,当你遇到问题的时候,如果感到无从下手,或者抓不到重点,可能是因为你掌握的思维模型不够多。 一个好用的思维模型, ...
2025-01-06在现代企业中,数据分析师扮演着至关重要的角色。每天都有大量数据涌入,从社交媒体到交易平台,数据以空前的速度和规模生成。面 ...
2025-01-06在职场中,许多言辞并非表面意思那么简单,有时需要听懂背后的“潜台词”。尤其在数据分析的领域里,掌握常用术语就像掌握一门新 ...
2025-01-04在当今信息化社会,数据分析已成为各行各业的核心驱动力。它不仅仅是对数字进行整理与计算,而是在数据的海洋中探寻规律,从而指 ...
2025-01-03又到一年年终时,各位打工人也迎来了展示成果的关键时刻 —— 年终述职。一份出色的年终述职报告,不仅能全面呈现你的工作价值, ...
2025-01-03在竞争激烈的商业世界中,竞品分析对于企业的发展至关重要。今天,我们就来详细聊聊数据分析师写竞品分析的那些事儿。 一、明确 ...
2025-01-03在数据分析的江湖里,有两个阵营总是争论不休。一派信奉“大即是美”,认为数据越多越好;另一派坚守“小而精”,力挺质量胜于规 ...
2025-01-02数据分析是一个复杂且多维度的过程,从数据收集到分析结果应用,每一步都是对信息的提炼与升华。可视化分析结果,以图表的形式展 ...
2025-01-02在当今的数字化时代,数据分析师扮演着一个至关重要的角色。他们如同现代企业的“解密专家”,通过解析数据为企业提供决策支持。 ...
2025-01-02数据分析报告至关重要 一份高质量的数据分析报告不仅能够揭示数据背后的真相,还能为企业决策者提供有价值的洞察和建议。 年薪 ...
2024-12-31数据分析,听起来好像是技术大咖的专属技能,但其实是一项人人都能学会的职场硬核能力!今天,我们来聊聊数据分析的核心流程,拆 ...
2024-12-31提到数据分析,你脑海里可能会浮现出一群“数字控”抱着电脑,在海量数据里疯狂敲代码的画面。但事实是,数据分析并没有你想象的 ...
2024-12-31关于数据分析师是否会成为失业高危职业,近年来的讨论层出不穷。在这个快速变化的时代,技术进步让人既兴奋又不安。今天,我们从 ...
2024-12-30