一次数据分析的全过程-CDA数据分析师官网

热线电话：13121318867

一次数据分析的全过程

2017-01-14

一次数据分析的全过程

刚下完班的时候，在公司无聊的坐着，一位同事拿了一些数据给我，说让我实现一个类似交叉表格的统计报表。

源数据就是个日志文本信息

2008/1/11               02:14:33:181           181          00001c68                SeqID       418370    ToBack()=TRUE       Len=154 MsgID=x00000202
2008/1/11               02:14:33:181           181          00001c68                SeqID       418370    ToFront()=TRUE      Len=260 MsgID=x08000202                BEIP=192.168.1.162                BEPort=22049
2008/1/11               03:05:42:330           330          00004110                SeqID       418370    ToBack()=TRUE       Len=154 MsgID=x00000202
2008/1/11               03:05:42:346           346          00004110                SeqID       418370    ToFront()=TRUE      Len=261 MsgID=x08000202                BEIP=192.168.1.163                BEPort=22049

要的结果是统计一下，各时段对应的超时毫秒的数量

理论上也不复杂，能找出数据规律，进行分组统计而已，但问题在于：

首先统计是上下文相关的，即通过上下文的数据相计算才能获取到相应的指标

其次如何判断上下文的场景，根据几组字段判断都有问题，即得不到唯一的标示

原来想着应该是轻而易举的事情，先把数据导入oracle吧

有日期有时间，需要把文本的日期时间处理成oracle的date类型，可偏偏date类型不支持毫秒运算，第一个问题出来了，依赖于日志中已有的毫秒进行上下文计算又有一定的问题。

先统计了再说吧

select b.hours,

case when overlap<10 then '<10ms'

when overlap<20 then '10-20'

when overlap<30 then '20-30'

when overlap<40 then '30-40'

when overlap<50 then '40-50'

when overlap<60 then '50-60'

when overlap<70 then '60-70'

when overlap<80 then '70-80'

when overlap<90 then '80-90'

else '>90ms'

end tt,

count(*)

from

(

select a.f,a.d from

(

select k,a,b,f,d,g,c,

LAG(c, 1, 0) OVER (partition by f,d ORDER BY B,g) lastc,

LAG(b, 1, 0) OVER (partition by f,d ORDER BY B,g) lastb,

case when c - LAG(c, 1, 0) OVER (ORDER BY tt)>=0 then c - LAG(c, 1, 0) OVER (ORDER BY tt)

else c - LAG(c, 1, 0) OVER (ORDER BY tt)+1000 end aa

from test6 t

) a

where a.g='ToFront()=TRUE' and a.aa>90 )

order by f,d,b,g

) b

group by b.hours,

case when overlap<10 then '<10ms'

when overlap<20 then '10-20'

when overlap<30 then '20-30'

when overlap<40 then '30-40'

when overlap<50 then '40-50'

when overlap<60 then '50-60'

when overlap<70 then '60-70'

when overlap<80 then '70-80'

when overlap<90 then '80-90'

else '>90ms'

end

结果统计出来了，结果非预期的，又对几条数据进行了统计和明细的对比，发现确实有些小问题，可问题出在哪里，也说不清楚。

为了解释清楚这个问题，还是对数据加上行号吧，再次进行对比，发现数据的位置变化了，和原本的日志顺序是不一样的。

为了解决这个问题，还是用rownum加上表数据生成到另外一张测试表吧，再去看看行号和日志的顺序是否能够对应，却发现日志的插入顺序和行号是不一致的！

又问了下同事，业务逻辑到底是怎样的，答曰：日志中上下文的顺序是很严格的

看来需要彻底解决行号问题了。

又在Excel中做了一下测试，Excel做测试很容易，先获取上条记录的毫秒信息，再进行排序，再把数据进行筛选，然后再进行分组判断，最后进行交叉表的生成。

对应大数据量来说，Excel的拖拉显然就满了很多，其次还需要函数、排序、复制数据，总的来说还是比较耗时的。

还是想想怎么解决行号问题吧，确保行号就是数据的原始顺序，首先加了一个sequence，后来又在该表中增加了一个触发器，然后把数据重新导入一遍

create or replace trigger trigger_test6

before insert on test6

for each row

declare

begin

select tt.nextval into :new.tt from dual;

end trigger_test6;

再去验证数据的顺序，这次才算正常了

数据正常了，业务逻辑就简单多了，只需要把最内核的部分修改一下，按行号排序即可

select rr,k,a,b,f,d,g,c,

LAG(c, 1, 0) OVER (ORDER BY tt) lastc,

LAG(b, 1, 0) OVER (ORDER BY tt) lastb

from test6 t

统计完成后，再拷贝到Excel中进行数据透视表转换，再把表格数据拷贝出来，加一些美观信息即可。

该件事情还是没有得到完美解决

主要是毫秒的处理，理论上是时间的直接相减即可，可由于Oracle的date类型无法直接处理，只能采用日志中的毫秒字段进行相减了，碰到相减为负的，则再加回来1000，多少有些问题。

再其次， oracle导入时的数据顺序有问题，不过我想也许是我自己还没找解决问题的根本原因吧。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

字段交叉表透视表数据透视数据透视表大数据数据分析

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇图论在大数据分析中的作用！

下一篇CDA认证再升一档！与国家共同推进大数据人才培养标准教育事业！

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

一次数据分析的全过程

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

【CDA干货】金融行业运营风险监测：核心统计分析方 ...

【CDA干货】基于数据分析的财险潜在客户挖掘与精准 ...

从“杂乱数据”到“分析资产”：CDA数据分析师视角 ...

CDA持证人专访：何显臻谈餐饮行业数据分析与生产管 ...

【CDA干货】如何利用统计学方法开展数据分析：流程 ...

从“数据描述”到“业务预判”：CDA数据分析师视角 ...

【CDA干货】箱线图上下限计算原理、标准流程与异常 ...

【CDA干货】MySQL固定时间间隔数据查询：语法原理、 ...

从“杂乱信号”到“有序资产”：CDA数据分析师视角 ...

CDA持证人专访：周婧博谈会计行业数据分析与经营诊 ...

【CDA干货】问卷调查卡方检验：原理、前提与实战应 ...

从“整体波动”到“因子归因”：CDA数据分析师视角 ...

【CDA干货】单因素方差分析：三组及以上独立样本的 ...

【CDA干货】次日付费留存计算方法、统计口径与业务 ...

从“点状静态”到“时序动态”：CDA数据分析师视角 ...

CDA持证人专访：王晓琳谈数据分析备考与秋招实战经 ...

【CDA干货】用户决策流程全解析：核心环节、影响因 ...

从“标签”到“人”：CDA数据分析师视角下的用户画 ...

【CDA干货】透视表跨表数据应用原理与实战方法 ...

【CDA干货】正态分布异常事件识别与处理方法：数据 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载