关于大数据分析的四个关键环节
随着大数据时代的到来,AI 概念的火热,人们的认知有所提高。为什么说大数据有价值 这是不是只是一个虚的概念 大家怎么考虑数据驱动问题 为什么掌握更多的数据就会更有效 这些问题很难回答,但是,大数据绝不是大而空洞的。
信息论之父香农曾表示,信息是用来消除不信任的东西,比如预测明天会不会下雨,如果知道了今天的天气、风速、云层、气压等信息,有助于得出更准确的结论。所以大数据是用来消除不确定性的,掌握更多的有效数据,可以驱动企业进行科学客观的决策。
桑文锋对大数据有着自己的理解,数据采集遵循“大”、“全”、“细”、“时”四字法则。
“大”强调宏观的“大”,而非物理的“大”。大数据不是一味追求数据量的“大”。比如每天各地级市的苹果价格数据统计只有 2MB,但基于此研发出一款苹果智能调度系统,就是一个大数据应用,而有些数据虽然很大,却价值有限;
“全”强调多种数据源。大数据采集讲求全量,而不是抽样。除了采集客户端数据,还需采集服务端日志、业务数据库,以及第三方服务等数据,全面覆盖,比如美国大选前的民意调查,希拉里有70%以上胜算,但是川普成为了美国总统,因为采样数据有偏差,支持川普的底层人民不会上网回复。
“细”强调多维度数据采集,即把事件的维度、属性、字段等都进行采集。如电商行业“加入购物车”的事件,除了采集用户的 click 数据,还应采集用户点击的是哪个商品、对应的商户等数据,方便后续交叉分析。
“时”强调数据的时效性。显然,具有时效性的数据才有参考价值。如国家指数,CPI 指数,月初收集到信息和月中拿到信息,价值显然不同,数据需要实时拿到,实时分析。
从另一个视角看待数据的价值,可以分为两点,数据驱动决策,数据驱动产品智能。数据的最大价值是产品智能,有了数据基础,再搭建好策略算法,去回灌产品,提升产品本身的学习能力,可以不断迭代。如今日头条的新闻推荐,百度搜索的搜索引擎优化,都是数据驱动产品智能的体现。
▌ 数据分析四个关键环节
桑文锋把数据分析分为四个环节,数据采集、数据建模、数据分析、指标。他提出了一个观点,要想做好数据分析,一定要有自底向上的理念。很多公司的数据分析自顶向下推动,用业务分析指标来决定收集什么数据,这是需求驱动工程师的模式,不利于公司长久的数据采集。而一个健康的自底向上模式,可以帮助公司真正建立符合自己业务的数据流和数据分析体系。
一、数据采集
想要真正做好大数据分析,首先要把数据基础建好,核心就是“全”和“细”。
搜集数据时不能只通过 APP 或客户端收集数据,服务器的数据、数据库数据都要同时收集打通,收集全量数据,而非抽样数据,同时还要记录相关维度,否则分析业务时可能会发现历史数据不够,所以不要在意数据量过大,磁盘存储的成本相比数据积累的价值,非常廉价。
常见的数据采集方式归结为三类,可视化/全埋点、代码埋点、数据导入工具。
第一种是可视化/全埋点,这种方式不需要工程师做太多配合,产品经理、运营经理想做分析直接在界面点选,系统把数据收集起来,比较灵活。但是也有不好的地方,有许多维度信息会丢失,数据不够精准。
第二种是代码埋点,代码埋点不特指前端埋点,后端服务器数据模块、日志,这些深层次的都可以代码埋点,比如电商行业中交易相关的数据可以在后端采集。代码埋点的优势是,数据更加准确,通过前端去采集数据,常会发现数据对不上,跟自己的实际后台数据差异非常大。可能有三个原因:第一个原因是本身统计口径不一样,一定出现丢失;第二点是流量过大,导致数据丢失异常;第三点是SDK兼容,某些客户的某些设备数据发不出去,导致数据不对称。而代码埋点的后台是公司自己的服务器,自己核心的模拟可以做校准,基本进行更准确的数据采集。
第三种是通过导入辅助工具,将后台生成的日志、数据表、线下数据用实时批量方式灌到里面,这是一个很强的耦合。
数据采集需要采集数据和分析数据的人共同参与进来,分析数据的人明确业务指标,并且对于数据的准确性有敏感的判断力,采集数据的人再结合业务进行系统性的采集。
二、数据建模
很多公司都有业务数据库,里面存放着用户注册信息、交易信息等,然后产品经理、运营人员向技术人员寻求帮助,用业务数据库支持业务上的数据分析。但是这样维护成本很高,且几千万、几亿条数据不能很好地操作。所以,数据分析和正常业务运转有两项分析,数据分析单独建模、单独解决问题。
数据建模有两大标准:易理解和性能好。
数据驱动不是数据分析师、数据库管理员的专利,让公司每一个业务人员都能在工作中运用数据进行数据分析,并能在获得秒级响应,验证自己的新点子新思维,尝试新方法,才是全员数据驱动的健康状态。
多维数据分析模型(OLAP)是用户数据分析中最有效的模型,它把用户的访问数据都归类为维度和指标,城市是维度,操作系统也是维度,销售额、用户量是指标。建立好多维数据分析模型,解决的不是某个业务指标分析的问题,使用者可以灵活组合,满足各种需求。
三、数据分析
数据分析支持产品改进
产品经理在改进产品功能时,往往是拍脑袋灵光一现,再对初级的点子进行再加工,这是不科学的。《精益创业》中讲过一个理念,把数据分析引入产品迭代,对已有的功能进行数据采集和数据分析,得出有用的结论引入下一轮迭代,从而改进产品。在这个过程中大数据分析很关键。
Facebook 的创始人曾经介绍过他的公司如何确定产品改进方向。Facebook 采用了一种机制:每一个员工如果有一个点子,可以抽样几十万用户进行尝试,如果结果不行,就放弃这个点子,如果这个效果非常好,就推广到更大范围。这是把数据分析引入产品迭代的科学方法。
桑文锋在 2007 年加入百度时,也发现了一个现象,他打开邮箱会收到几十封报表,将百度知道的访问量、提问量、回答量等一一介绍。当百度的产品经理提出一个需求时,工程师会从数据的角度提出疑问,这个功能为什么好 有什么数据支撑 这个功能上线时如何评估 有什么预期数据 这也是一种数据驱动产品的体现。
数据驱动运营监控
运营监控通常使用海盗模型,所谓的运营就是五件事:触达是怎么吸引用户过来;然后激活用户,让用户真正变成有效的用户;然后留存,提高用户粘性,让用户能停留在你的产品中不断使用;接下来是引荐,获取用户这么困难,能不能发动已有的用户,让已有用户带来新用户,实现自传播;最后是营收,做产品最终要赚钱。要用数据分析,让运营做的更好。
数据分析方法
互联网常见分析方法有几种,多维分析、漏斗分析、留存分析、用户路径、用户分群、点击分析等等,不同的数据分析方法适用于不同的业务场景,需要自主选择。
举个多维分析的例子,神策数据有一个视频行业的客户叫做开眼,他们的软件有一个下载页面,运营人员曾经发现他们的安卓 APP 下载量远低于 iOS,这是不合理的。他们考虑过是不是 iOS 用户更愿意看视频,随后从多个维度进行了分析,否定了这个结论,当他们发现某些安卓版本的下载量为零,分析到屏幕宽高时,看出这个版本下载按钮显示不出来,所以下载比例非常低。就这样通过多维分析,找出了产品改进点。
举个漏斗分析的例子,神策数据的官网访问量很高,但是注册-登录用户的转化率很低,需要进行改进。所以大家就思考如何把转化漏斗激活地更好,后来神策做了小的改变,在提交申请试用后加了一个查看登录页面,这样用户收到账户名密码后可以随手登录,优化了用户体验,转化率也有了可观的提升。
四、指标
如何定义指标 对于创业公司来说,有两种方法非常有效:第一关键指标法和海盗指标法。
第一关键指标法是《精益数据分析》中提出的理论,任何一个产品在某个阶段,都有一个最需要关注的指标,其他指标都是这个指标的衍生,这个指标决定了公司当前的工作重点,对一个初创公司来说,可能开始关注日活,围绕日活又扩展了一些指标,当公司的产品成熟后,变现就会成为关键,净收入(GMV)会变成第一关键指标。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
Python作为一门功能强大的编程语言,已经成为数据分析和可视化领域的重要工具。无论你是数据分析的新手,还是经验丰富的专业人士 ...
2025-01-10完全靠数据决策,真的靠谱吗? 最近几年,“数据驱动”成了商界最火的关键词之一,但靠数据就能走天下?其实不然!那些真正成功 ...
2025-01-09SparkSQL 结构化数据处理流程及原理是什么?Spark SQL 可以使用现有的Hive元存储、SerDes 和 UDF。它可以使用 JDBC/ODB ...
2025-01-09在如今这个信息爆炸的时代,数据已然成为企业的生命线。无论是科技公司还是传统行业,数据分析正在深刻地影响着商业决策以及未来 ...
2025-01-08“数据为王”相信大家都听说过。当前,数据信息不再仅仅是传递的媒介,它成为了驱动经济发展的新燃料。对于企业而言,数据指标体 ...
2025-01-07在职场中,当你遇到问题的时候,如果感到无从下手,或者抓不到重点,可能是因为你掌握的思维模型不够多。 一个好用的思维模型, ...
2025-01-06在现代企业中,数据分析师扮演着至关重要的角色。每天都有大量数据涌入,从社交媒体到交易平台,数据以空前的速度和规模生成。面 ...
2025-01-06在职场中,许多言辞并非表面意思那么简单,有时需要听懂背后的“潜台词”。尤其在数据分析的领域里,掌握常用术语就像掌握一门新 ...
2025-01-04在当今信息化社会,数据分析已成为各行各业的核心驱动力。它不仅仅是对数字进行整理与计算,而是在数据的海洋中探寻规律,从而指 ...
2025-01-03又到一年年终时,各位打工人也迎来了展示成果的关键时刻 —— 年终述职。一份出色的年终述职报告,不仅能全面呈现你的工作价值, ...
2025-01-03在竞争激烈的商业世界中,竞品分析对于企业的发展至关重要。今天,我们就来详细聊聊数据分析师写竞品分析的那些事儿。 一、明确 ...
2025-01-03在数据分析的江湖里,有两个阵营总是争论不休。一派信奉“大即是美”,认为数据越多越好;另一派坚守“小而精”,力挺质量胜于规 ...
2025-01-02数据分析是一个复杂且多维度的过程,从数据收集到分析结果应用,每一步都是对信息的提炼与升华。可视化分析结果,以图表的形式展 ...
2025-01-02在当今的数字化时代,数据分析师扮演着一个至关重要的角色。他们如同现代企业的“解密专家”,通过解析数据为企业提供决策支持。 ...
2025-01-02数据分析报告至关重要 一份高质量的数据分析报告不仅能够揭示数据背后的真相,还能为企业决策者提供有价值的洞察和建议。 年薪 ...
2024-12-31数据分析,听起来好像是技术大咖的专属技能,但其实是一项人人都能学会的职场硬核能力!今天,我们来聊聊数据分析的核心流程,拆 ...
2024-12-31提到数据分析,你脑海里可能会浮现出一群“数字控”抱着电脑,在海量数据里疯狂敲代码的画面。但事实是,数据分析并没有你想象的 ...
2024-12-31关于数据分析师是否会成为失业高危职业,近年来的讨论层出不穷。在这个快速变化的时代,技术进步让人既兴奋又不安。今天,我们从 ...
2024-12-30数据分析师在现代企业中扮演着关键角色,他们的工作内容不仅丰富多样,还对企业的决策和发展起着重要的作用。正如一个经验丰富的 ...
2024-12-29数据分析师的能力要求 在当今的数据主导时代,数据分析师的角色变得尤为重要。他们不仅需要具备深厚的技术背景,还需要拥有业务 ...
2024-12-29