一次数据分析的全过程-CDA数据分析师官网

热线电话：13121318867

首页精彩阅读一次数据分析的全过程

一次数据分析的全过程

2017-10-28

一次数据分析的全过程

刚下完班的时候，在公司无聊的坐着，一位同事拿了一些数据给我，说让我实现一个类似交叉表格的统计报表。

我原以为是最多十几分钟就搞定的事情，没想到花了2个小时，所以印象比较深，就把全过程记录了下来

源数据就是个日志文本信息

要的结果是统计一下，各时段对应的超时毫秒的数量

理论上也不复杂，能找出数据规律，进行分组统计而已，但问题在于：

首先统计是上下文相关的，即通过上下文的数据相计算才能获取到相应的指标

其次如何判断上下文的场景，根据几组字段判断都有问题，即得不到唯一的标示

原来想着应该是轻而易举的事情，先把数据导入oracle吧

有日期有时间，需要把文本的日期时间处理成oracle的date类型，可偏偏date类型不支持毫秒运算，第一个问题出来了，依赖于日志中已有的毫秒进行上下文计算又有一定的问题。

先统计了再说吧

select b.hours,

case when overlap<10 then '<10ms'

when overlap<20 then '10-20'

when overlap<30 then '20-30'

when overlap<40 then '30-40'

when overlap<50 then '40-50'

when overlap<60 then '50-60'

when overlap<70 then '60-70'

when overlap<80 then '70-80'

when overlap<90 then '80-90'

else '>90ms'

end tt,

count(*)

from

(

select a.f,a.d from

(

select k,a,b,f,d,g,c,

LAG(c, 1, 0) OVER (partition by f,d ORDER BY B,g) lastc,

LAG(b, 1, 0) OVER (partition by f,d ORDER BY B,g) lastb,

case when c - LAG(c, 1, 0) OVER (ORDER BY tt)>=0 then c - LAG(c, 1, 0) OVER (ORDER BY tt)

else c - LAG(c, 1, 0) OVER (ORDER BY tt)+1000 end aa

from test6 t

) a

where a.g='ToFront()=TRUE' and a.aa>90 )

order by f,d,b,g

) b

group by b.hours,

case when overlap<10 then '<10ms'

when overlap<20 then '10-20'

when overlap<30 then '20-30'

when overlap<40 then '30-40'

when overlap<50 then '40-50'

when overlap<60 then '50-60'

when overlap<70 then '60-70'

when overlap<80 then '70-80'

when overlap<90 then '80-90'

else '>90ms'

end

结果统计出来了，结果非预期的，又对几条数据进行了统计和明细的对比，发现确实有些小问题，可问题出在哪里，也说不清楚。

为了解释清楚这个问题，还是对数据加上行号吧，再次进行对比，发现数据的位置变化了，和原本的日志顺序是不一样的。

为了解决这个问题，还是用rownum加上表数据生成到另外一张测试表吧，再去看看行号和日志的顺序是否能够对应，却发现日志的插入顺序和行号是不一致的！

又问了下同事，业务逻辑到底是怎样的，答曰：日志中上下文的顺序是很严格的

看来需要彻底解决行号问题了。

又在Excel中做了一下测试，Excel做测试很容易，先获取上条记录的毫秒信息，再进行排序，再把数据进行筛选，然后再进行分组判断，最后进行交叉表的生成。

对应大数据量来说，Excel的拖拉显然就满了很多，其次还需要函数、排序、复制数据，总的来说还是比较耗时的。

还是想想怎么解决行号问题吧，确保行号就是数据的原始顺序，首先加了一个sequence，后来又在该表中增加了一个触发器，然后把数据重新导入一遍

create or replace trigger trigger_test6

before insert on test6

for each row

declare

begin

select tt.nextval into :new.tt from dual;

end trigger_test6;

再去验证数据的顺序，这次才算正常了

数据正常了，业务逻辑就简单多了，只需要把最内核的部分修改一下，按行号排序即可

select rr,k,a,b,f,d,g,c,

LAG(c, 1, 0) OVER (ORDER BY tt) lastc,

LAG(b, 1, 0) OVER (ORDER BY tt) lastb

from test6 t

统计完成后，再拷贝到Excel中进行数据透视表转换，再把表格数据拷贝出来，加一些美观信息即可。

该件事情还是没有得到完美解决

主要是毫秒的处理，理论上是时间的直接相减即可，可由于Oracle的date类型无法直接处理，只能采用日志中的毫秒字段进行相减了，碰到相减为负的，则再加回来1000，多少有些问题。

再其次， oracle导入时的数据顺序有问题，不过我想也许是我自己还没找解决问题的根本原因吧。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

交叉表字段数据透视表透视表数据透视数据分析大数据

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇回归系列（一）| 怎样正确地理解线性回归

下一篇2020美国总统竞选大戏开锣，川普当选的奇迹会再发生吗？

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

一次数据分析的全过程

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

CDA 数据分析师：开启数据职业发展新征程 ...

从招聘要求看数据分析师的能力素养与职业发展 ...

【CDA干货】Power BI 中如何控制过滤器选择项目数并 ...

把握 CDA 考试时间，开启数据分析职业之路 ...

CDA 证书：银行招聘中的 “黄金通行证” ...

【CDA干货】探索最优回归方程：数据背后的精准预测 ...

CDA 数据分析师报考条件全解析：开启数据洞察之旅 ...

【CDA干货】深入解析 SQL 中 CASE 语句条件的执行顺 ...

【CDA干货】SPSS 中计算三个变量交集的详细指南 ...

CDA 数据分析师：就业前景广阔的新兴职业 ...

【CDA干货】探秘卷积层：为何一个卷积层需要两个卷 ...

探索 CDA 数据分析师在线课程：开启数据洞察之旅 ...

3D VLA新范式！CVPR冠军方案BridgeVLA，真机性能提 ...

【CDA干货】LSTM 为何会产生误差？深入剖析其背后的 ...

LLM进入拖拽时代！只靠Prompt几秒定制大模型，效率 ...

【CDA干货】探秘 z-score：数据分析中的标准化利器 ...

【CDA干货】Excel 中为不同柱形设置独立背景（按数 ...

CDA 数据分析师会被 AI 取代吗？

CDA 数据分析师证书考取全攻略 ...

人工智能在数据分析的应用场景

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载

一次数据分析的全过程

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

CDA 数据分析师：开启数据职业发展新征程 ...

从招聘要求看数据分析师的能力素养与职业发展 ...

【CDA干货】Power BI 中如何控制过滤器选择项目数并 ...

把握 CDA 考试时间，开启数据分析职业之路 ...

CDA 证书：银行招聘中的 “黄金通行证” ...

【CDA干货】探索最优回归方程：数据背后的精准预测 ...

CDA 数据分析师报考条件全解析：开启数据洞察之旅 ...

【CDA干货】深入解析 SQL 中 CASE 语句条件的执行顺 ...

【CDA干货】SPSS 中计算三个变量交集的详细指南 ...

CDA 数据分析师：就业前景广阔的新兴职业 ...

【CDA干货】探秘卷积层：为何一个卷积层需要两个卷 ...

探索 CDA 数据分析师在线课程：开启数据洞察之旅 ...

3D VLA新范式！CVPR冠军方案BridgeVLA，真机性能提 ...

【CDA干货】LSTM 为何会产生误差？深入剖析其背后的 ...

LLM进入拖拽时代！只靠Prompt几秒定制大模型，效率 ...

【CDA干货】探秘 z-score：数据分析中的标准化利器 ...

【CDA干货】Excel 中为不同柱形设置独立背景（按数 ...

CDA 数据分析师会被 AI 取代吗？

CDA 数据分析师证书考取全攻略​​​​ ...

人工智能在数据分析的应用场景

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载

CDA 数据分析师证书考取全攻略 ...