从日志统计到大数据分析-CDA数据分析师官网

从日志统计到大数据分析

2016-06-05

从日志统计到大数据分析

首先，我们回到2008年。那个时候，我是属于百度搜索新产品部的，像知道、贴吧、百科等，都属于这个部门的产品。部门里有个小团队叫Nslog，一共四个人，其中两个是实习生，所负责的工作就是部门内的各种需求统计。

统计的方式是这样的，各个产品线的业务人员按照需求文档的格式要求，填写统计需求，提交到需求管理平台上，Nslog的团队负责人(开始不是我负责)每周末，将需求分别分配给团队的几个成员。每个成员拿到需求列表之后，就挨着做。需求的实现，一般都是写 Perl 脚本，那个时候 Python 还没流行起来。因为统计需求比较类似，一般都是拿一个已有的脚本复制一份，修改一下，测试逻辑，测试大数据量下的准确性，然后部署到线上去。一共有20台机器跑统计脚本，每台机器上都用Crontab配置天级的例行任务。每个统计脚本的逻辑大概是这样的：通过Wget从数据源服务器上抓取按小时切割的日志文件，完成后，跑统计逻辑，将生成的结果组织成HTML表格，邮件发送给相应的团队。如下图所示：

(图1 使用单机脚本跑统计)

这种模式有以下几个问题：

(1)需求响应周期长：从拿到需求，要和需求提出者确认需求细节，找一个类似的脚本修改，测试逻辑正确性，测试数据正确性，安排运维同学部署上线，平均每个需求要2天时间。这里还没算需求的等待时间，这可能要等一两周。

(2)运维成本高：20台统计服务器，每台机器通过Crontab管理了几十个脚本。这些脚本之间，可能还存在依赖关系，比如凌晨4点跑的一个脚本B，依赖于凌晨2点启动的某个脚本A。如果脚本A挂了，脚本B还是会正常的启动。恢复任务非常麻烦，真是牵一发而动全身。运维同学经常抱怨就没有哪一天能睡好觉的。

(3)运行速度慢：因为每个脚本只能单机运行，对于像知道、贴吧这样的大流量业务线，每天原始日志就有好几百G，光跑个排序就得好几个小时。特别是像贴吧被人爆吧，数据量一下子就会增加很多，统计结果跑不出来。如果分成每台机器跑一部分，维护代价非常大。

(4)职业发展瓶颈：那个时候还没有大数据的概念，大家对数据的价值也没现在这么认可，甚至连招聘面试时，也是把能力一般的分配到统计团队。而写脚本满足需求这样的工作是很枯燥的，对一个新人，写上三个月会觉得能学到不少东西，写六个月，就开始反感了，写一年，就坚决要求转岗或走人了。

当时我们的技术经理(同时管理了知道、百科、Nslog 三个团队)就觉得要做一套系统首要解决运维成本高的问题。但已有团队的人员光满足需求都忙不过来了，就从百科团队借调了两个人(不包括我)。那时候的我刚从百度知道转到百科团队，正想在百科团队大干一场。借调去的两个人其中一个是校招新人，我的项目经理就安排我也参与到项目中，培养新人的成长。于是我们三个人开始梳理需求和考虑设计方案。

盘古开天地一

设计一套日志统计平台的需求来源主要是Nslog的研发和运维同学，整理了好几十条，并出了一个基本的方案。我当时觉得实现一个提升运维管理的系统不难，难的是怎么是好用的?我很关心怎么提升需求处理的效率问题。这个时候其中一个人又被调到了一个基础库团队。也就是做这件事的就只剩我和校招新人了。而我们两个都还没做过需求处理，也不知道那几百个脚本里面都写的什么玩意儿。我说咱俩每人至少要看三个脚本，再抽查一些，看看这些脚本都有什么规律没有。我研究了之后，发现还是有些规律的。

我发现常见的统计有这么三类：

(1)计数统计：那个时代是流量时代，许多统计就是算PV(Page View)。一般是在 Apache Web Server日志中，去用正则表达式匹配满足某些条件的记录，做计数。

(2)去重统计：比如独立 IP 数，独立用户数等。

(3)Top N统计：比如昨天检索量最大的100个Query是什么。

我就问一直做统计的一位同学，这三类能不能占到所有统计需求的80%，他想了一下说有的。于是我就说咱们只要设计的系统，能够将这部分的需求处理工作量降下来，我们的系统就是成功的。这个时候技术经理又从其他团队借调了一个前端同学过来支援几周。我和校招新人都不会前端开发，这事儿没专业的人来搞不定。在接下来的两周时间，我就和前端同学研究怎么设计这部分的抽象。前端同学先提了一个方案，类似于 Dreamweaver中的页面HTML编辑界面，点选一个元素，可以进行修改配置。我觉得这种方案，还没直接写脚本效率高呢。

我从awk脚本语言获取了灵感。在awk语言中，都是awk condition { action } 这种模式，就是condition定义了满足的限制条件，action是执行的操作。比如：

awk ‘$6 == “Nov” { sum += $5 } END { print sum }’ ./test.txt

就是把test.txt中，满足第6列等于 “Nov” 的记录，计算第5列的求和。

对于常见的那三类统计需求，都是一种统计类型，加上一堆限制条件。为了降低限制条件的难度，我让所有的条件之间只支持AND操作，不支持OR操作。我们知道AND和 NOT完全可以表示出来OR。

设计出来的效果是这样的：

设计效果

(图2 简单编辑界面)

上面是一个去重统计的例子，我选择一个日志源，点击“去重统计”按钮，生成一个模版，填写限制条件。一个统计任务就生成了。这里没有显示出来的是，每个日志源，都有一个对应的agent函数，所做的事是一段解析程序，将原始日志解析成若干个变量，如图中的去重字段部分，类似“_UserId”，这样在统计模板中就可以直接使用了。这样做了之后，可以让一个统计任务的开发工作量，降低到5分钟。

还有一个问题是计算性能问题。

盘古开天地二

当时Hadoop刚推出，还只是测试版。对于它能解决多少问题，我们心里是没底的。在百度内部已经有少量的需求在尝试使用，手工写 MapReduce 代码的方式。我也尝试写了一个，还是比较容易的，但有一定的学习代价。系统部有一个团队，在负责Hadoop 的维护。为了保险，我把底层计算接口设计成两套，同样的代码，既可以提交到Hadoop，又可以提交到单机。在单机上用脚本串起来，模拟在集群上的运行。Hadoop本身支持将任务分割为Mapper和Reducer两个阶段，我又增加了一个Computer阶段，作用是将Reducer的结果(一般是统计数值)拿到执行机(分布式提交任务的节点)，并将其插入到数据库。我当时的想法是如果Hadoop不靠谱，我就把这20台单机，组成一个小集群，管理提交的任务。当然，这样的话就实现不了单个任务的分布式化了。

整个架构图是这样的：

架构图

(图3 初版日志统计平台架构图)

其中Code Engine和CWrapper是我设计和实现的，Scheduler和数据库表设计是校招新人实现的，Web UI是后来加入的实习生花了一周时间找了个网上的模板改的。日志的上传是运维同学开发的。为了说服运维同学完成部分开发工作，承诺让其将所有的数据上传之后，再更新数据库里的数据源就绪状态。

在这个系统实现中，我们把PHP用到了极致，Web UI是PHP的，后端的几个模块是 PHP的，就连生成的 MapReduce代码，也是PHP的。有人可能会对PHP的运算性能有疑问，当时负责Hadoop维护的同学为了推动更多的人使用，承诺我们100多台机器随便用，不用考虑性能问题，缺机器了他们直接申请加，我们就没这方面的考虑。PHP 的开发效率还是很高的，我的 Code Engine 实现任务配置到 MapReduce 代码的编译，最初的版本只花了我2个小时，140行代码。

就这样，一个伟大的系统经过两三个月的时间拼凑完成了。其实到快发布，还没有名字。有一天经理问我叫什么，我说就叫 Log Statistics Platform的前三个字母LSP，于是就有了名字(之后我为了方便记忆，让大家把平台叫做 Log 平台)。

平台带来了几点好处：

(1)需求响应周期大大缩短：因为对常用的三类统计做了很好的抽象，即使产品同学都能直接配置统计任务，开发周期从2天时间降低到5分钟。并且统计需求的处理，完全交还给了各个业务方，没有了需求等待时间。

(2)运维成本大大降低：由统一的系统进行任务的管理，具有依赖关系的管理，大大降低了出错带来的恢复成本。

(3)运行速度飞快：我现在仿佛还能回忆起从平台上提交第一个任务时的感觉，以前几个小时才能跑完的任务，只需要几分钟就跑完了。我之前担心的 Hadoop 不能覆盖所有统计需求的问题，也不存在。

(4)组员积极性变高，终于在干一件有点技术含量的事了。

盘古开天地三

平台在2009年4月正式发布后，各个团队的需求铺天盖地而来，日志源的中转上传很快就成了瓶颈。都是所有的日志源完成上传后，才开始统计计算，这样上传期间的几个小时时间就白白浪费掉了。我们首先将日志上传改成每份完成后单独打就绪标记。后来有次和 Hadoop 团队的同学沟通，我就提起能不能每个 Mapper 作为一个日志抓取的任务，这样可以让100多台机器同时抓数据，他们说没问题，已经有团队这么干。于是我们很快上线了新版本，实现分布式的抓取。

架构改成了这样：

新型架构

(图4 分布式抓取架构)

这时候的产品，已经是一个比较完整的产品了，我开始在公司范围内推广。本来公司里有十几个类似我们的统计团队，我就是要说服他们把任务迁移到我们平台。记得很深刻的一次是和网页搜索部的统计团队沟通，他们看了演示之后很震惊，说本来他们只是在设想这种系统的可能性，没想到你们已经做出来了。当时我们又入职了一位同学专门负责响应需求，有一天，业务部门的同学反馈说不能加他好友了(我们用的是百度自己的聊天软件 Baidu Hi)，我们就找 Hi 团队的同事咨询，他们说这位同学到了好友上限2000人，之前还没遇到过这种情况。他们的解决方案是修改人数配置，重启整个 Baidu Hi 服务。

在整个推广的过程中，我就像拿着一款先进设备，去拯救那些水深火热的人们。我们一边推广，一边完善整个平台。

从最开始平台是为统计而生，但我渐渐的发现，统计只是一类需求，其他Hadoop任务，也可以通过我们这个平台管理起来。我就想将Log平台发展为Hadoop的壳，所有提交给Hadoop的任务，都能通过Log平台管理起来。Log平台演化成一个通用计算平台。

我前面提到通过三类常见统计的抽象，来解决80%的问题。但当这80%需求解决之后，你会发现又有新的80%的需求冒出来。如果让用户直接写MapReduce任务提交，这个代价太大了。平台开始上线时，提交任务就支持两种模式。一种是简单编辑，就是前面的三类抽象(后来加了更多的类别)。一种就是复杂编辑，直接贴MapReduce代码。对于后者，如果能抽象一个更好用的计算框架，将MapReduce隐藏起来，显然就又可以提升开发效率了。

我就安排一个工程师(目前是我的合伙人之一)出一个方案，只用了一周时间，就设计出来原型了。下面是个例子(我们叫它 DQuery)：

代码案例

(图5 DQuery 代码样例)

对于一个输入，我们可以去选择某些字段，进行分组，每组在计数，然后输出到一个文件。这样就实现了一个统计任务。这种链式的处理方式，在现代已经很普遍了，特别是 Spark 里都是采用的类似表示方法。我们在2009底做了这个事情，在2011年公司号召多提交专利时，提交了发明专利。今年3月初时，专利刚被审核通过。这种将数据流式的进行变换的思想，已经见诸于各大分布式计算系统。

在给出 DQuery 原型后，我觉得团队太弱小了，只能有一个全职参与这件事。于是找基础库团队的同学寻求支持。他们最开始提出何不实现一个 Google Sawzall，但我觉得太底层了。最终说服对方安排一位工程师参与进来。结果就是他们两个人花了2个半月，就把这个语言开发出来了。

可能你会问为什么当时不选择使用 Hive?事实上，那个时候 Hive 的工程师也来公司交流和推广了。但有两个需求不好满足：

(1)任务合并：对于同一个数据源，可能有几百个统计任务。这种统计任务可能都很简单，但是都要将数据源读取一遍，也就是一个高 IO 低 CPU 的任务。我们当时想直接读取一遍，然后将多个任务同时计算，这样效率会高很多。这在 Hive 上是不支持的。

(2)用户行为分析：我当时比较乐观，觉得我一年解决统计问题，第二年解决分析问题，第三年解决挖掘问题。事实上到现在分析问题也没解决彻底。我们知道 Hive 是基于 SQL 的，而 SQL 是上下文无关的。也就是说你取出的一批数据，有前后关系的话，是很难操作的。我需要在语言上支持。而在 DQuery 语言中，我们设计了一个方法叫 process，可以嵌入用户的逻辑，非常灵活。这里要说的是 DQuery 是一个基于 PHP 语言的框架，这样 DQuery 表达不了的，都可以写原始 PHP 代码。

就这样到2010年底的时候，实现了全公司日志统计全部统一到 Log 平台。这是我在百度八年，干的最有成就感的一件事情。

秦天下

转眼到了2011年初，那个时候团队已经合并到了网页搜索部的相关性部门，我感觉这不利于发展。我的想法是要把团队面向全公司服务，甚至成为像 NLP(自然语言处理)部门在厂长心中的地位。但网页相关性部门的上司觉得先服务好本部门就够了。我和基础架构部的一个经理(最早在百度负责维护和开发 Hadoop 团队的负责人，在他完成了 Hadoop 在全百度的推广之后，改为负责一个分布式存储团队了)商量了一下，觉得两个团队合并，成立一个专门的数据团队，是一件更有意义的事。两人一拍即合。基础架构部的老大又从 Google 挖来了一位专家做我们团队的负责人，他之前在 Yahoo 做了7年，Google 做了5年，一直在做数据仓库，绝对的资深专家，我很崇拜的人。

记得在2011年的7月1日，团队开了个All Hands大会，公司 VP 在讲话中说：在中国是 D 说了算，在百度也是 D 说了算，后一个 D 是指 Data 。说起来在百度这八年，百度文化有29条，我第二喜欢的就是“用数据说话”，数据虽然有欺骗性，但总的来说有数据要比没有数据好，它不带有感情，冷静客观。就这样，我们 DataTeam 成立了，或者叫 DreamTeam。团队的一线人员一共二十来个，超过一半是我之前的下属。

有新总监的领导，我们的思路完全被打开了一圈。但在最开始，我们的思路依旧有些混乱，之前的产品还要维护，想做的新东西很多，我们似乎没有一个中心。眼看到了国庆，有一天我问新总监他觉得什么最重要，如果只挑一件事情的话，他说是 UDW(User Data Warehouse，意为用户数据仓库)。我说那咱们核心成员就用来做这个项目。于是我迅速将 Log 的核心成员，抽调到了这一项目，在之后的三年里，我的主要精力可以说都是围绕它展开的。

在新总监来到百度之后，很快发现了我们的数据源真叫一个混乱。公司有上百个业务线，每个业务线的数据格式都是不同的。如果你要基于所有的数据源做一个业务，比如个性化推荐，那么需要和所有的业务线沟通数据格式，并维护这条飞线。相比之下，在 Google 数据源都是被规范管理的，使用 Protocol Buffer 来规范数据格式。新总监认为我们要先把数据源给统一起来，形成一个好的数据基础，后续的数据分析完全依赖于它。

对于这种思路，我是有疑虑的。在2009年的时候，我就做了一个叫麦哲伦的用户行为查询平台，通过输入一个 ID，返回用户的行为记录，主要包括知道，百科，贴吧之类的产品。当时的做法是我把每个产品线的用户访问行为，比如在百度知道提问，用一个 Action ID 来标记，这个行为有一系列属性。对于有些属性，我还和业务线建立了专门的接口，用于获取这些属性的具体内容。比如通过问题的 ID，获取到问题的标题，以保证行为记录的可读性。这个系统是很快建立起来了，但被使用的频率非常低。花很大精力整理的数据，似乎一时半会儿看不到多大价值。还有个问题是业务线的数据格式变更，我的数据处理逻辑都要更新，很难维护。所以这种思路被重新提出时，我最顾虑的是做出来之后有什么用，在应用点不明确的时候，我们是不是该做这件事。但新总监在公司层面很快推动达成了一致，总之是公司支持做这件事情。执行从来不是我的问题，既然都确定要做了，我很快就带着团队做起来。最开始选择最核心的八条业务线，在2012年的 Q1 季度末，正式对公司内部发布了。

UDW 做了一件事情，将全公司的每个业务线的每一种用户行为，定义为一种 Event，这个 Event 包括一系列的属性，核心的是 UserID，Event Type，事件相关的其他属性。这样，一个用户在百度的任意行为就统一到了一张表上。再有人想做数据分析，就可以直接用干净统一的基础数据了。

从数据角度来看，是一个金字塔：

数据金字塔

(图6 数据金字塔)

最底层是上百条业务线的文本日志，通过 LogFormat 转成 Protocol Buffer 格式。在此基础上，构建 UDW。在 UDW 基础之上，我们构建围绕各种主题的数据，形成 DataMart。比如基于 Query 的基础数据。再进一步汇聚，就可以用于 BI 的 Insight。

这里我总结一下 UDW 思路的优缺点。优点是为上层应用提供了一套统一干净的基础数据，上层的使用变得非常简单。一个广告团队，仅仅是将数据源切换到 UDW，就提升了接近20%的收入。更何况以前在做个需要多个业务线数据源的应用，只需要和我们 UDW 打交道，这减少了多大的工作量和沟通成本。

不好的地方是源头的数据并没有变更，我们中间是通过 ETL 过程将数据接入到 UDW 的，而这个过程工作复杂难以维护，具有很长的滞后性。并且因为多了一轮计算，实效性也降低了。一些业务线开始抱怨，对 UDW 产生了严重依赖，特别是相对比较独立的业务线，做这件事完全没什么好处，还不如根据原始数据来计算。

在这之后，我又带着团队完成了核心数据源的日志 Protocol Buffer 改造，并构建了新的传输、查询、调度系统。在2012年初老大给我讲 Google 那边能够打了日志马上就可以分析，我都觉得很不可思议，那时候百度的延迟至少是小时级的。可经过两年多的努力，我们也达到了这一点。以上是我的经历分享，希望能够给读者启发，少走一些弯路。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

Hadoop Hive 大数据数据分析 SQL 字段数据仓库正则表达式

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇回归系列（一）| 怎样正确地理解线性回归

下一篇2020美国总统竞选大戏开锣，川普当选的奇迹会再发生吗？

从日志统计到大数据分析

盘古开天地一

盘古开天地二

盘古开天地三

秦天下

CDA考试动态

CDA报考指南

热门栏目

最新资讯

【CDA干货】互联网运营必看：私域用户质量数据分析 ...

【CDA持证人案例分享】用 Excel 精准监控电商及推广 ...

【CDA持证人干货分享】13年国企财务：如何借助DeepS ...

【CDA持证人案例分享】Excel动态报表设计：基于业务 ...

【CDA干货】字节大佬：如何通过动态分级快速提升转 ...

Windows 系统和 MacOS 系统下的 Anaconda 安装教程 ...

数据运营的工作内容、技能要求及发展前景 ...

【干货】字节大佬：教培行业销售运营全景作战地图【 ...

四大一线城市约50%人口租房，数据分析能挖出哪些 “ ...

Python 实战案例 —RFM 客户价值分析模型 ...

【案例】奥利奥坚果新品与蒙牛“数字牧场”的成功经 ...

美关税政策下的全球金融市场动荡：深度数据分析与洞 ...

【重磅】苹果捐赠3000万给浙大这专业，透露未来就业 ...

非专业，怎么才能证明自己的数据分析能力？ ...

保姆级教程！一文读懂数据分析师的职业发展路径 ...

【干货】用DeepSeek三步骤搞定Excel数据清洗，效率 ...

被统计公式劝退？这门极简课程让你14天学会用Python ...

【干货】如何用RFM模型精准识别高价值客户？ ...

CDA数据分析师就业班3月29日开班，仅剩1个名额 ...

【案例】网飞Netflix流量漏斗分析案例 ...