热线电话:13121318867

登录
首页大数据时代大数据分析师证书
大数据分析师证书
2024-10-11
收藏

大数据分析师证书

针对不同知识,掌握程度的要求分为【领会】、【熟知】、【应用】三个级别,考生应按照不同知识要求进行学习。

  • 1.领会:考生能够领会了解规定的知识点,并能够了解规定知识点的内涵与外延,了 解其内容要点和它们之间的区别与联系,并能做出正确的阐述、解释和说明。

  • 2.熟知:考生须掌握知识的要点,并能够正确理解和记忆相关理论方法,能够根据不 同要求,做出逻辑严密的解释、说明和阐述。此部分为考试的重点部分。

  • 3.应用:考生须学会将知识点落地实践,并能够结合相关工具进行商业应用,能够根 据具体要求,给出问题的具体实施流程和策略。

考试范围

PART 1 大数据基础理论 占比(8% ) 

  • a. 大数据分析基础(1%)

  • b. Python 基础(5%)

  • c. Linux & Ubuntu 操作系统基础(2%)

PART 2 Hadoop 理论 占比(12% )

  • a. Hadoop 安装配置及运行机制解析(2%)

  • b. HDFS 分布式文件系统(2%)

  • c. MapReduce 理论及实战(2%)

  • d. Hadoop 生态其他常用组件(6%)

PART 3 大数据分析之数据库理论及工具 占比(16% )

  • a. 数据库导论(2%)

  • b. MySQL 理论及实战(3%)

  • c. HBase 安装及使用(3%)

  • d. Hive 安装及使用(5%)

  • e. Sqoop 安装及使用(3%)

PART 4 大数据分析数据挖掘理论基础 占比(10% )

PART 5 大数据分析之 Spark 工具及实战 占比(35% )

  • a. Spark 基础理论(2%)

  • b. Spark RDD 基本概念及常用操作(3%)

  • c. Spark 流式计算框架 Spark Streaming、Structured Streaming(5%)

  • d. Spark 交互式数据查询框架 Spark SQL(5%)

  • e. Spark 机器学习算法库 Spark MLlib 基本使用方法(15%)

  • f. Spark 图计算框架 GraphX(5%)

PART 6 大数据分析数据可视化方法 占比(4% )

PART 7 大数据分析实战 占比(15% )

考试内容

PART 1 大数据基础理论

1、大数据分析基础

【领会】 大数据技术诞生技术背景 大数据技术实际应用 分布式处理技术概念

数据分析和数据挖掘的概念 【熟知】 明确数据分析的目标和意义 明确分布式技术在进行海量数据处理时起到的关键作用 数据分析方法与数据挖掘方法的区别和联系 明确数据分析流程中不同软件工具的作用 常用描述性统计方法 常用数据挖掘方法

2、Python 基础

【领会】 Python 语言的特点、语法、应用场景

  • 【熟知】
  • Python 基础语法,包括基本数据类型、运算符、条件控制语句、循环语句等;
  • Python 函数式编程,常用高阶函数,包括 map 函数、reduce 函数、filter 函数及模块相关功能
  • Python 面向对象编程特性,包括类和实例、继承、多态
  • 利用 Python 链接数据库
  • Python 可视化常用包及其基本使用方法
3、Linux 与 Ubuntu 基础
  • 【领会】
  • Linux 入门
  • Linux 与 Ubuntu 的关系
  • Ubuntu 的安装及配置
  • Ubuntu 文件组织形式
  • Ubuntu 操作系统的常用命令
  • SSH 理论基础
  • 了解其他常用 Linux 系统,如 CentOS,RedHat,SUSE 等
  • 【熟知】
  • Ubuntu 操作系统命令及使用命令编辑文件
  • IP 地址的基础理论
  • SSH 命令使用方法
  • 利用 SSH 基于密匙的安全验证进行多个节点间的无密码登陆
  • 【应用】
  • 安装配置 Linux 操作系统
  • 利用 SSH 基于密匙的安全验证进行多个节点间的无密码登陆
  • 掌握部分 shell 命令进行 Linux 操作,如 awk、grep、sed 典型的文本处理工具
PART 2 Hadoop 理论
1、Hadoop 安装配置及运行机制解析
2、HDFS 分布式文件系统
  • 【领会】
  • HDFS 的概念及设计
  • HDFS 体系结构及运行机制,
  • NameNode、DataNode、SecondaryNameNode 的作用及运行机制
  • HDFS 的备份机制和文件管理机制
  • 【熟知】
  • HDFS 的运行机制
  • NameNode、DataNode、SecondaryNameNode 的配置文件
  • HDFS 文件系统的常用命令
  • 【应用】
  • 使用命令及 Java 语句操作 HDFS 中的文件 使用 JPS 查看 NameNode、DataNode、SecondaryNameNode 的运行状态
3、MapReduce 理论及实战
  • 【领会】
  • MapReduce 的概念及设计
  • MapReduce 运行过程中类的调用过程
  • Mapper 类和 Reducer 类的继承机制
  • job 的生命周期
  • MapReduce 中 block 的调度及作业分配机制
  • 【熟知】
  • MapReduce 程序编写的主要内容
  • MapReduce 程序提交的执行过程
  • MapReduce 程序在浏览器的查看
  • 【应用】
  • Mapper 类和 Reducer 类的主要编写内容和模式
  • job 的实现和编写
  • 编写基于 MapReduce 模型的 wordcount 程序
  • 相应 jar 包的打包和集群运行
4、Hadoop 生态其他常用组件
  • 【领会】
  • HBase 基本功能、Hive 基本功能、Sqoop 基本功能、ZooKeeper 的基本功能、Flink 基本功能
  • 【熟知】
  • HBase 的安装配置及常用命令、Hive 的安装配置及常用命令、Sqoop 的安装配置及常用 命令、ZooKeeper 的安装配置及常用命令、Flink 安装配置及常用命令
  • 【应用】
  • HBase、Hive、Sqoop、Flink 及 ZooKeeper 的安装与运行
PART 3 大数据分析之数据库理论及工具
1、数据库导论
  • 【领会】
  • 数据、数据库、数据库管理系统、数据库系统、数据仓库的概念
  • 数据管理发展的三个阶段,不同阶段数据管理的特点,特别是数据库系统的特点
  • 数据依赖及数据规范化理论、数据模型理论及方法
  • 【熟知】
  • SQL 的基本概念和特点
  • SQL 的数据定义功能
  • SQL 的数据查询功能
  • CRUD 操作
  • SQL 的数据更新功能
  • 不同 NoSQL 数据库的特点及使用场合
2、MySQL 理论及实战
  • 【领会】
  • 数据库、表、索引和视图的相关概念
  • 数据库完整性约束的概念、定义及使用方法
  • 数据库、表、索引和视图的维护方法
  • 【熟知】
  • MySQL 中 SELECT 命令的基本格式
  • 掌握单表查询的方法和技巧
  • 掌握多表连接查询的方法和技巧
  • 掌握嵌套查询、集合查询的方法和技巧
  • 【应用】
  • MySQL 平台下的 SQL 交互操作
3、Hive 数据仓库基础
4、Hive 的基本命令
  • 【领会】

  • Hive 中的数据库概念、修改数据库

  • 【熟知】

  • 创建表、管理表、外部表、分区表、删除表

  • 【应用】

  • 向表中增加数据

  • 通过查询语句向表中插入数据

  • 单个查询语句中创建表并加载数据

  • 导出数据

5、Hive 中检索数据
  • 【领会】

  • Hive 中的命令语句是类 SQL 语句

  • 【熟知】

  • SELECT…FROM 语句

  • 【应用】

  • 使用列值进行计算、算术运算符、使用函数、列别名、嵌套 SELECT 语句、WHERE 语句、group by 语句、集合运算、多表连接、内连接、外连接、笛卡尔积连接、order by 语句、 抽样查询、视图。

6、Sqoop 基础
7、HBase 理论及实战
  • 【领会】
  • HBase 的基础概念、数据模型、存储模型
  • HBase 集群配置参数分析
  • HBase 集群查看方式
  • 【熟知】
  • HBase shell 常用的操作命令
  • HBase 的参数配置
  • HBase 的每个数据单元的操作方式
  • 区域服务器(Region Server)和主服务器(Master Server)的管理模式
  • HBase 的存储模式
  • 【应用】
  • HBase 的伪分布和集群的安装及配置
  • HBase 的 API 操作项目实战
PART 4 大数据分析数据挖掘理论基础
1、数据挖掘的基本思想
2、数据挖掘基础知识
  • 【熟知】
  • 数据、算法基本概念
  • 算法基本分类方法
  • 监督学习算法中的训练样本、测试样本、特征变量、目标变量(标签)等常用术语的相关定义
3、有监督学习算法
4、无监督学习算法
PART 5 大数据分析之 Spark 工具及实战
1、Spark 基础理论
  • 【领会】
  • Spark 大数据生态系统的功能与结构
  • Spark、Hadoop 之间的区别与联系
  • Spark 大数据生态系统的特点
  • Scala 基本语法
  • 【熟知】
  • Spark 生态系统中的四大核心组件
  • Spark 与 MapReduce 的对比与分析
  • Spark 与 MapReduce 适用的应用场景
  • Spark 的多种运行模式
  • 【应用】
  • 熟练掌握 Standalone 模式下 Spark 集群的搭建步骤
  • 配置文件中参数的具体含义
2、Spark RDD 基本概念与常用操作
  • 【领会】
  • Spark RDD 基本概念
  • Spark API
  • Spark 任务调度策略
  • 【熟知】
  • Spark RDD 的特性
  • RDD 上的转换操作、执行操作、持久化操作
  • RDD 之间的宽依赖关系与窄依赖关系 【应用】
  • 基于 Spark API 编写词频统计程序,并在词频统计程序基础上进行功能扩展,SparkContext、TaskScheduler、DAGScheduler 等核心代码的分析与调试。
3、Spark 流式计算框架 Spark Str eaming、Structur ed Str eaming
  • 【领会】
  • Kafka 分布式消息分发机制
  • Spark Streaming 应用场景
  • Spark Streaming 基本概念
  • Spark DStream 的存储级别
  • Structured Streaming 计算框架
  • 【熟知】
  • 批处理间隔、离散数据流 Spark DStream、窗口、滑动间隔、窗口间隔等重要概念
  • 熟练使用 Spark DStream 的相关操作
  • Spark Streaming 的三种应用模式,以及实现三种模式的相关操作
  • 【应用】
  • 搭建 Kafka 环境,能够将 Kafka 作为高级数据源时使用 Spark Streaming,基于 HDFS 上 文本数据创建 Spark DStream,并利用相关操作进行数据分析,基于网络中实时数据创建 Spark DStream,并结合窗口等概念和相关操作进行数据分析,基于无状态模式处理 HDFS 上的文本数据,基于 stateful 与 window 模式处理网络实时数据。
4、Spark 交互式数据查询框架 Spark SQL

【领会】

  • Spark SQL 的发展历程
  • Spark SQL 的性能
  • Spark SQLHive、Shark 之间的联系
  • Spark SQL 的应用场景
  • hive/console 的安装过程与基本原理
  • 【熟知】
  • 基于 Hadoop 搭建 Spark SQL 的测试环境
  • 掌握 LogicalPlan、SqlParser、Analyzer、Optimizer 等组件
  • SchemaRDD 的基本概念与相关操作
  • 不同数据源的运行计划
  • 不同查询的运行计划
  • 查询优化策略
  • 【应用】
  • HiveContext 与 SQLContext 的基础应用,利用 Spark SQL 对 JSON 文件、Parquet 文- 件以 及 Hive 上的数据进行交互式查询。
5、Spark 机器学习算法库 Spark MLlib 基本使用方法
  • 【领会】
  • Spark MLlib 的基本框架与原理
  • Spark MLlib 中 ML 库与 MLlib 库区别
  • 【熟知】
  • Spark MLlib 中矩阵向量运算方法
  • Spark MLlib 中常用统计计算方法
  • 【应用】
  • 能够利用 ML Pipelines 构建机器学习
  • 能够利用 TF-IDF、Word2Vec、CountVectorizer 等进行特征抽取、转化和选择
  • 能够利用 ML 进行机器学习模型建模,至少掌握以下常用模型建模方法,包括决策树逻辑回归、KMeans 聚类、GMM 高斯混合模型聚类协同过滤随机森林SVM 等模型
  • 能够利用 CrossValidator(交叉验证)和 TrainValidationSplit(训练验证分割)进行模型评估与参数调优
6、Spark 图计算框架 Gr apX
  • 【领会】
  • Spark GraphX 简介
  • Spark GraphX、GraphLab、Pregel 的联系与区别
  • Spark GraphX 中表视图与图视图的两种数据的转换
  • 图论基本概念
  • 【熟知】
  • Spark GraphX 中数据的主要表示形式
  • 图的存储模型
  • Spark GraphX 提供的切分策略
  • 图的构建操作
  • 图的属性操作
  • 图的结构操作
  • 【应用】
  • Spark GraphX 源码分析与调试
  • 基于 Pregel 的 API 实现图的 PageRank 和最短路径算法
PART 6 大数据分析数据可视化方法
1、数据可视化入门基础
2、Python 数据可视化
  • 【领会】
  • Python 可视化发展近况及其优势
  • 【熟知】
  • Python 数据可视化常用包的安装与更新,包括 Matplotlib、Seaborn 等
  • 利用 Matplotlib、Seaborne 绘制常用可视化图形
3、Python 高级可视化方法
  • 【领会】
  • Echarts 基本情况与主要应用背景
  • 【熟知】
  • echarts/' style='color:#000;font-size:inherit;'>Pyecharts 的安装与更新
  • 利用 echarts/' style='color:#000;font-size:inherit;'>Pyecharts 绘制常见可视化图形
PART 6 大数据分析实战
1、利用 HDFS Shell 操作 HDFS 文件系统
  • 【熟知】
  • HDFS 常用命令,包括创建文件目录命令、文件传输命令、文件修改及删除命令等
2、利用 Hive SQL 进行数据清洗
3、利用 Sqoop 进行数据传输
  • 【熟知】
  • 能够灵活使用 Sqoop shell 命令进行文件在 Hadoop 中与 MySQL 数据库中的转化操作, 以达到文件传输要求
4、利用 Spark SQL 进行数据读取
5、Spark MLlib 进行机器学习建模
  • 【熟知】
  • 能够根据分析要求,灵活调用 MLlib 中的相关算法进行分析,并能进一步构建机器学习 流,能够利用调参工具对模型进行调优,能够利用模型评估指标最终建模结果进行评估。
6、利用 Python 进行建模结果数据可视化
  • 最终建模完成后,结合实际业务场景和演示需求,将建模结果导入本地,并利用 Pyhton 工具,合理选择对应第三方库,对建模结果进行数据可视化演示。

这里分享一个你一定用得到的小程序——CDA数据分析师考试小程序。 它是专为CDA数据分析认证考试报考打造的一款小程序。可以帮你快速报名考试、查成绩、查证书、查积分,通过该小程序,考生可以享受更便捷的服务。 扫码加入CDA小程序,与圈内考生一同学习、交流、进步!

数据分析咨询请扫描二维码

最新资讯
更多
客服在线
立即咨询