大道至简的数据体系构建方法论
由上至下地梳理数据指标体系
1.确定目标
这是第一个应该问自己的问题。花大力气做数据分析,最终为了什么呢?如果这都没想清楚,那数据体系肯定无从下手。
是想提高用户活跃度、增加用户、增加销量,还是别的什么目标?这么一想,好像我都想要。都想要没有问题,但是会让工作的边界无限蔓延,导致事情无法推进。所以,应该从最关心的那个目标/KPI入手。
那么,什么问题才是我们最需要关心的目标呢?
对于不同领域、不同阶段的公司和不同角色的用户而言,这个问题的答案都不一样:对于很多公司老板来说,利润就是他们最关心的目标;对于非售卖产品/服务的公司或政府而言,也许客户满意度是最关心的目标;对于交易平台类公司或早期电商公司而言,利润不是重点,交易量是最关心的目标。
最关心的目标搞定了,下面是不是可以解决都想要的问题了呢?并不是这样。大数据带来的最大一个误区就是数据量和字段数越多越好。但是,在真正解决具体业务问题时,我们一定是从大数据的全集中切出相关的一个子集来使用的。
对于单人而言,无论是老板还是执行层,同时关注的目标/KPI都不宜过多。同时看几十个KPI,想象一下也知道会很晕,且耗费时间。但是,对企业而言确实有很多KPI都是非常重要的。这该怎么办?可以分解到多人,即不同角色一起协作,每个角色关注自己的目标,所有角色合在一起是公司所有目标/KPI的全集。
假设老板最关注的目标是利润,利润=收入-成本,可以将这个目标分解为由销售总监来关注收入,运营总监来关注成本。当然,并不是说老板不能看收入,而是把常规性的关注目标锁定在一个可行的范围之内。
2.分解指标
目标确定了,下一步是分解出相关的指标。
针对目标,需要哪些指标来监控或分析能达成目标呢?比如利润,相关指标就是收入和成本,当然这太粗了,收入有哪几类,成本有哪几类,都应该考虑进去。比如对于零售行业的销售额,可以分解为客流量、进店率、购买率、客单价和复购率等。
所以,分解的方式有很多种,需要遵循MECE原则(完全穷举,相互独立)。
3.细化字段
针对指标的计算公式,涉及到哪些字段,分别在哪些库的哪些表里,是否需要数据清洗,清洗规则是什么等。
比如购买率,是通过公式“购买人数/进店人数”算出来的,购买人数又是对“客户ID”进行计数计算得出来的,这些指标涉及到的字段对应到数据库里哪张表的哪个字段,需要梳理清楚,这部分就需要IT人员或数据库管理员的介入和配合了。
4.非功能需求
上述第3步完成之后,我们其实已经算是梳理完了指标体系,可以落地了,但为了让最终形成的数据系统更加完备、友好、可用,还需要一些非功能需求的梳理。
UI:偏好什么样的展示风格,这点看着无关紧要,但实际上用户每天都会与数据系统打交道,美观、体验好的系统UI会让用户更加喜欢。
页面流:哪些相关指标摆放到同一个报告页面上,页面之间的层次关系如何,用户可以在页面之间如何跳转。
权限:谁能看哪些数据范围,谁能看哪些字段和指标,需要有统一的权限控制,避免出现数据安全问题。
ETL:数据从数据源同步到分析系统的频率如何,规则如何。
集成:是否需要在界面、预警消息等层面与其它系统进行集成。
性能:看不见摸不着,但是直接决定系统可用性。如果数据量大时需要几分钟甚至几十分钟才能看到结果,相信这个系统就不会有人愿意用了。
5.系统实施
上述4项完成之后,我们就形成了《数据运营系统需求文档/实施方案》,即可落地到数据运营系统里,然后,再根据报告页面数量、数据准备复杂度等确定工作量和时间计划。
二.由下至上地实施落地到BI系统
1.连接数据
根据需求文档/实施方案,一步步进行系统搭建工作。这个系统有的企业称之为大数据平台,有的企业称之为BI系统。大数据平台的范畴会更广一些,但对企业数据化运营而言,BI一定是核心构成。
那么,无论是开发还是基于像永洪科技一样的第三方工具快速实施,系统搭建的第一步都是连接各个数据源,打通和各个数据源之间的通路。
在企业里,数据环境往往是异构的,数据源可能包括数据库、Hadoop系列平台、Excel文件、日志文件、NoSQL数据库、第三方接口等,需要对每种数据源都有快速友好的对接方式。
最终,我们在系统里能看到所需要的各个数据源中所有的表格和字段。
2.数据处理
数据源里的数据往往是有或多或少的不规范性存在的,比如有重复记录,比如有遗漏的空值,比如有明显不合理的异常值(比如有2020年的成交订单),还可能有同一个事物在系统中存在多个名称的情况。
这些数据如果不做一些处理或称之为清洗的工作,是会对分析的准确性产生很大影响的,所以需要做些预处理。这个过程往往是最耗时、最枯燥的,但也是十分重要的。
作者提醒:这个环节的问题将在下一篇《大道至简的数据治理方法_论》文章中再深入探讨。
3.数据建模
数据处理好了,下一步就该做数据建模了。
一提到建模,非技术背景的用户就生畏,觉得高深不可理解。其实建出的模是个什么东西呢?简单来讲,把多张表关联到一起,就是一个数据模型。
比如,公司要做绩效分析,需要员工的工龄、学历、项目数、项目金额、项目利润率等指标,其中工龄、学历在个人信息表里,项目数、项目金额在项目表里,项目利润率在财务表里,这三张表有个共同字段“员工编号”,通过这个字段把这三张表关联起来,这就是一个数据模型,一个绩效分析主题的数据模型。
4.制作数据报告
数据分析咨询请扫描二维码
在准备数据分析师面试时,掌握高频考题及其解答是应对面试的关键。为了帮助大家轻松上岸,以下是10个高频考题及其详细解析,外加 ...
2024-12-20互联网数据分析师是一个热门且综合性的职业,他们通过数据挖掘和分析,为企业的业务决策和运营优化提供强有力的支持。尤其在如今 ...
2024-12-20在现代商业环境中,数据分析师是不可或缺的角色。他们的工作不仅仅是对数据进行深入分析,更是协助企业从复杂的数据信息中提炼出 ...
2024-12-20随着大数据时代的到来,数据驱动的决策方式开始受到越来越多企业的青睐。近年来,数据分析在人力资源管理中正在扮演着至关重要的 ...
2024-12-20在数据分析的世界里,表面上的技术操作只是“入门票”,而真正的高手则需要打破一些“看不见的墙”。这些“隐形天花板”限制了数 ...
2024-12-19在数据分析领域,尽管行业前景广阔、岗位需求旺盛,但实际的工作难度却远超很多人的想象。很多新手初入数据分析岗位时,常常被各 ...
2024-12-19入门数据分析,许多人都会感到“难”,但这“难”究竟难在哪儿?对于新手而言,往往不是技术不行,而是思维方式、业务理解和实践 ...
2024-12-19在如今的行业动荡背景下,数据分析师的职业前景虽然面临一些挑战,但也充满了许多新的机会。随着技术的不断发展和多领域需求的提 ...
2024-12-19在信息爆炸的时代,数据分析师如同探险家,在浩瀚的数据海洋中寻觅有价值的宝藏。这不仅需要技术上的过硬实力,还需要一种艺术家 ...
2024-12-19在当今信息化社会,大数据已成为各行各业不可或缺的宝贵资源。大数据专业应运而生,旨在培养具备扎实理论基础和实践能力,能够应 ...
2024-12-19阿里P8、P9失业都找不到工作?是我们孤陋寡闻还是世界真的已经“癫”成这样了? 案例一:本硕都是 985,所学的专业也是当红专业 ...
2024-12-19CDA持证人Louis CDA持证人基本情况 我大学是在一个二线城市的一所普通二本院校读的,专业是旅游管理,非计算机非统计学。毕业之 ...
2024-12-18最近,知乎上有个很火的话题:“一个人为何会陷入社会底层”? 有人说,这个世界上只有一个分水岭,就是“羊水”;还有人说,一 ...
2024-12-18在这个数据驱动的时代,数据分析师的技能需求快速增长。掌握适当的编程语言不仅能增强分析能力,还能帮助分析师从海量数据中提取 ...
2024-12-17在当今信息爆炸的时代,数据分析已经成为许多行业中不可或缺的一部分。想要在这个领域脱颖而出,除了热情和毅力外,你还需要掌握 ...
2024-12-17数据分析,是一项通过科学方法处理数据以获取洞察并支持决策的艺术。无论是在商业环境中提升业绩,还是在科研领域推动创新,数据 ...
2024-12-17在数据分析领域,图表是我们表达数据故事的重要工具。它们不仅让数据变得更加直观,也帮助我们更好地理解数据中的趋势和模式。相 ...
2024-12-16在当今社会,我们身处着一个飞速发展、变化迅猛的时代。不同行业在科技进步、市场需求和政策支持的推动下蓬勃发展,呈现出令人瞩 ...
2024-12-16在现代商业世界中,数据分析师扮演着至关重要的角色。他们通过解析海量数据,为企业战略决策提供有力支持。要有效完成这项任务, ...
2024-12-16在当今数据爆炸的时代,数据分析师是组织中不可或缺的导航者。他们通过从大量数据中提取可操作的洞察力,帮助企业在竞争激烈的市 ...
2024-12-16