想必大家在学习数据分析的时候,一定接触过ETL,那么关于ETL大家了解到什么程度呢?跟小编一起来复盘一下吧!
一、ETL概念
ETL全称是:Extract-Transform-Load,是将业务系统的数据经过抽取(Extract)、清洗转换(Transform)之后加载(Load)到数据仓库的过程。其目的是将企业中那些分散、零乱、标准不统一的数据整合到一起,从而为企业的决策提供分析依据。 ETL为BI项目一个非常重要的环节, 往往在BI项目中,ETL会占用我们整个项目至少1/3的时间,可以说ETL设计的好坏会直接关系到BI项目的成败。
二、ETL关键技术
1.数据的抽取(Extract)
首先需要确定数据源,也就是要弄明白数据是从哪几个业务系统中来,每个业务系统的数据库服务器运行什么DBMS;是否有手工数据存在,存在的话,数据量是多少;是否有非结构化的数据存在等。我们需要定义数据接口,对每一个源文件及系统中的每一个字段进行详细说明。之后确定数据抽取的方法,例如:需要确定是主动抽取还是由源系统推送?是按每日抽取还是每月抽取?以及是增量抽取还是全量抽取?
2.数据的清洗转换(Transform)
(1)数据清洗(Cleaning)
数据清洗的主要任务是清洗掉那些不符合要求的数据,将清洗的结果交给业务主管部门,并确认是直接清洗掉,还是由业务单位修正之后再次抽取。
不符合要求的数据主要包括:不完整的数据、错误的数据、重复的数据这三类。
(2)数据转换
数据转换一般包括:
空值处理,也就是捕获字段空值,并将其加载或替换为其他含义数据,或者数据分流问题库
数据拆分,根据实际业务需求对数据进行拆分,例如对身份证号拆分,拆分行政区划、出生日期、性别等
数据验证,时间规则、业务规则、自定义规则
数据替换,替换由于业务因素而导致的那些无效数据、缺失数据
数据关联,与其他数据进行关联,以保障数据完整性
3.数据加载(Load)
将清洗和转换后的数据装载到对应的表库中是ETL过程的最后步骤。采用什么样的方法装载数据,关键取决于所执行操作的类型和需要装载的数据量。当对应库为关系数据库时,通常有两种装载方式:
(1)直接使用SQL语句进行insert、update、delete操作。
(2)采用批量装载方法,例如bcp、bulk、关系数据库特有的批量装载工具或者api。
三、ETL日志、警告发送
1、 ETL日志
ETL日志主要分为三类。
(1)执行过程日志::在ETL执行过程中每一步的记录,记录每一次运行过程中各步骤的起始时间,影响的数据量,以流水账形式记录。
(2)错误日志::某个模块出错时的日志,会记录出错的时间、出错的模块以及其它相关出错的信息等。
(3)总体日志:只是记录ETL开始和结束时间以及否成功等信息。
如果我们使用ETL工具,那些ETL工具会也自动产生日志,这些日志也可以看做ETL日志的一部分。
记录日志的有助于我们随时知道ETL运行情况,一旦出现错误,我们可以知道是哪里出错。
2、 警告发送
若ETL出现错误,不仅会形成ETL错误日志,并且会向系统管理员发送警告。警告发送的方式有很多种,通常会采用向系统管理员发送邮件的形式,并且会附上出错的相关信息,方便管理员排查错误。
ETL是BI项目的关键环节,也是一个长期的过程,需要不断的发现问题,并解决问题,才能让ETL运行效率更高,为BI项目后期开发提供更加准确与高效的分析数据。
四、ETL 模式
ETL主要有四种实现模式,分别为:触发器模式、增量字段、全量同步、日志比对
五、ETL 工具
我们在选择ETL工具时,需要考虑从工具对平台和数据源的支持程度,集成性和开放性、抽取和装载的性能、数据转换和加工的性能,以及侵入性的高低,是否管理和调度功能等方面综合考虑。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
现今社会,“转行”似乎成无数职场人无法回避的话题。但行业就像座围城:外行人看光鲜,内行人看心酸。数据分析这个行业,近几年 ...
2025-01-31本人基本情况: 学校及专业:厦门大学经济学院应用统计 实习经历:快手数据分析、字节数据分析、百度数据分析 Offer情况:北京 ...
2025-01-3001专家简介 徐杨老师,CDA数据科学研究院教研副总监,主要负责CDA认证项目以及机器学习/人工智能类课程的研发与授课,负责过中 ...
2025-01-29持证人简介 郭畅,CDA数据分析师二级持证人,安徽大学毕业,目前就职于徽商银行总行大数据部,两年工作经验,主要参与两项跨部 ...
2025-01-282025年刚开启,知乎上就出现了一个热帖: 2024年突然出现的经济下行,使各行各业都感觉到压力山大。有人说,大环境越来越不好了 ...
2025-01-27在数据分析的世界里,“对比”是一种简单且有效的方法。这就像两个女孩子穿同一款式的衣服,效果不一样。 很多人都听过“货比三 ...
2025-01-26数据指标体系 “数据为王”相信大家都听说过。当前,数据信息不再仅仅是传递的媒介,它成为了驱动经济发展的新燃料。对于企业而 ...
2025-01-26在职场中,当你遇到问题的时候,如果感到无从下手,或者抓不到重点,可能是因为你掌握的思维模型不够多。 一个好用的思维模型, ...
2025-01-25俗话说的好“文不如表,表不如图”,图的信息传达效率很高,是数据汇报、数据展示的重要手段。好的数据展示不仅需要有图,还要选 ...
2025-01-24数据分析报告至关重要 一份高质量的数据分析报告不仅能够揭示数据背后的真相,还能为企业决策者提供有价值的洞察和建议。 年薪70 ...
2025-01-24又到一年年终时,各位打工人也迎来了展示成果的关键时刻 —— 年终述职。一份出色的年终述职报告,不仅能全面呈现你的工作价值, ...
2025-01-23“用户旅程分析”概念 用户旅程图又叫做用户体验地图,它是用于描述用户在与产品或服务互动的过程中所经历的各个阶段、触点和情 ...
2025-01-22在竞争激烈的商业世界中,竞品分析对于企业的发展至关重要。今天,我们就来详细聊聊数据分析师写竞品分析的那些事儿。 一、明确 ...
2025-01-22在数据分析领域,Excel作为一种普及率极高且功能强大的工具,无疑为无数专业人士提供了便捷的解决方案。尽管Excel自带了丰富的功 ...
2025-01-17在这个瞬息万变的时代,许多人都在寻找能让他们脱颖而出的职业。而数据分析师,作为大数据和人工智能时代的热门职业,自然吸引了 ...
2025-01-14Python作为一门功能强大的编程语言,已经成为数据分析和可视化领域的重要工具。无论你是数据分析的新手,还是经验丰富的专业人士 ...
2025-01-10完全靠数据决策,真的靠谱吗? 最近几年,“数据驱动”成了商界最火的关键词之一,但靠数据就能走天下?其实不然!那些真正成功 ...
2025-01-09SparkSQL 结构化数据处理流程及原理是什么?Spark SQL 可以使用现有的Hive元存储、SerDes 和 UDF。它可以使用 JDBC/ODB ...
2025-01-09在如今这个信息爆炸的时代,数据已然成为企业的生命线。无论是科技公司还是传统行业,数据分析正在深刻地影响着商业决策以及未来 ...
2025-01-08“数据为王”相信大家都听说过。当前,数据信息不再仅仅是传递的媒介,它成为了驱动经济发展的新燃料。对于企业而言,数据指标体 ...
2025-01-07