热线电话:13121318867

登录
首页大数据时代大数据分析师证书
大数据分析师证书
2024-10-30
收藏

大数据分析师证书

针对不同知识,掌握程度的要求分为【领会】、【熟知】、【应用】三个级别,考生应按照不同知识要求进行学习。

  • 1.领会:考生能够领会了解规定的知识点,并能够了解规定知识点的内涵与外延,了 解其内容要点和它们之间的区别与联系,并能做出正确的阐述、解释和说明。

  • 2.熟知:考生须掌握知识的要点,并能够正确理解和记忆相关理论方法,能够根据不 同要求,做出逻辑严密的解释、说明和阐述。此部分为考试的重点部分。

  • 3.应用:考生须学会将知识点落地实践,并能够结合相关工具进行商业应用,能够根 据具体要求,给出问题的具体实施流程和策略。

考试范围

PART 1 大数据基础理论 占比(8% ) 

  • a. 大数据分析基础(1%)

  • b. Python 基础(5%)

  • c. Linux & Ubuntu 操作系统基础(2%)

PART 2 Hadoop 理论 占比(12% )

  • a. Hadoop 安装配置及运行机制解析(2%)

  • b. HDFS 分布式文件系统(2%)

  • c. MapReduce 理论及实战(2%)

  • d. Hadoop 生态其他常用组件(6%)

PART 3 大数据分析之数据库理论及工具 占比(16% )

  • a. 数据库导论(2%)

  • b. MySQL 理论及实战(3%)

  • c. HBase 安装及使用(3%)

  • d. Hive 安装及使用(5%)

  • e. Sqoop 安装及使用(3%)

PART 4 大数据分析数据挖掘理论基础 占比(10% )

PART 5 大数据分析之 Spark 工具及实战 占比(35% )

  • a. Spark 基础理论(2%)

  • b. Spark RDD 基本概念及常用操作(3%)

  • c. Spark 流式计算框架 Spark Streaming、Structured Streaming(5%)

  • d. Spark 交互式数据查询框架 Spark SQL(5%)

  • e. Spark 机器学习算法库 Spark MLlib 基本使用方法(15%)

  • f. Spark 图计算框架 GraphX(5%)

PART 6 大数据分析数据可视化方法 占比(4% )

PART 7 大数据分析实战 占比(15% )

考试内容

PART 1 大数据基础理论

1、大数据分析基础

【领会】 大数据技术诞生技术背景 大数据技术实际应用 分布式处理技术概念

数据分析和数据挖掘的概念 【熟知】 明确数据分析的目标和意义 明确分布式技术在进行海量数据处理时起到的关键作用 数据分析方法与数据挖掘方法的区别和联系 明确数据分析流程中不同软件工具的作用 常用描述性统计方法 常用数据挖掘方法

2、Python 基础

【领会】 Python 语言的特点、语法、应用场景

  • 【熟知】
  • Python 基础语法,包括基本数据类型、运算符、条件控制语句、循环语句等;
  • Python 函数式编程,常用高阶函数,包括 map 函数、reduce 函数、filter 函数及模块相关功能
  • Python 面向对象编程特性,包括类和实例、继承、多态
  • 利用 Python 链接数据库
  • Python 可视化常用包及其基本使用方法
3、Linux 与 Ubuntu 基础
  • 【领会】
  • Linux 入门
  • Linux 与 Ubuntu 的关系
  • Ubuntu 的安装及配置
  • Ubuntu 文件组织形式
  • Ubuntu 操作系统的常用命令
  • SSH 理论基础
  • 了解其他常用 Linux 系统,如 CentOS,RedHat,SUSE 等
  • 【熟知】
  • Ubuntu 操作系统命令及使用命令编辑文件
  • IP 地址的基础理论
  • SSH 命令使用方法
  • 利用 SSH 基于密匙的安全验证进行多个节点间的无密码登陆
  • 【应用】
  • 安装配置 Linux 操作系统
  • 利用 SSH 基于密匙的安全验证进行多个节点间的无密码登陆
  • 掌握部分 shell 命令进行 Linux 操作,如 awk、grep、sed 典型的文本处理工具
PART 2 Hadoop 理论
1、Hadoop 安装配置及运行机制解析
2、HDFS 分布式文件系统
  • 【领会】
  • HDFS 的概念及设计
  • HDFS 体系结构及运行机制,
  • NameNode、DataNode、SecondaryNameNode 的作用及运行机制
  • HDFS 的备份机制和文件管理机制
  • 【熟知】
  • HDFS 的运行机制
  • NameNode、DataNode、SecondaryNameNode 的配置文件
  • HDFS 文件系统的常用命令
  • 【应用】
  • 使用命令及 Java 语句操作 HDFS 中的文件 使用 JPS 查看 NameNode、DataNode、SecondaryNameNode 的运行状态
3、MapReduce 理论及实战
  • 【领会】
  • MapReduce 的概念及设计
  • MapReduce 运行过程中类的调用过程
  • Mapper 类和 Reducer 类的继承机制
  • job 的生命周期
  • MapReduce 中 block 的调度及作业分配机制
  • 【熟知】
  • MapReduce 程序编写的主要内容
  • MapReduce 程序提交的执行过程
  • MapReduce 程序在浏览器的查看
  • 【应用】
  • Mapper 类和 Reducer 类的主要编写内容和模式
  • job 的实现和编写
  • 编写基于 MapReduce 模型的 wordcount 程序
  • 相应 jar 包的打包和集群运行
4、Hadoop 生态其他常用组件
  • 【领会】
  • HBase 基本功能、Hive 基本功能、Sqoop 基本功能、ZooKeeper 的基本功能、Flink 基本功能
  • 【熟知】
  • HBase 的安装配置及常用命令、Hive 的安装配置及常用命令、Sqoop 的安装配置及常用 命令、ZooKeeper 的安装配置及常用命令、Flink 安装配置及常用命令
  • 【应用】
  • HBase、Hive、Sqoop、Flink 及 ZooKeeper 的安装与运行
PART 3 大数据分析之数据库理论及工具
1、数据库导论
  • 【领会】
  • 数据、数据库、数据库管理系统、数据库系统、数据仓库的概念
  • 数据管理发展的三个阶段,不同阶段数据管理的特点,特别是数据库系统的特点
  • 数据依赖及数据规范化理论、数据模型理论及方法
  • 【熟知】
  • SQL 的基本概念和特点
  • SQL 的数据定义功能
  • SQL 的数据查询功能
  • CRUD 操作
  • SQL 的数据更新功能
  • 不同 NoSQL 数据库的特点及使用场合
2、MySQL 理论及实战
  • 【领会】
  • 数据库、表、索引和视图的相关概念
  • 数据库完整性约束的概念、定义及使用方法
  • 数据库、表、索引和视图的维护方法
  • 【熟知】
  • MySQL 中 SELECT 命令的基本格式
  • 掌握单表查询的方法和技巧
  • 掌握多表连接查询的方法和技巧
  • 掌握嵌套查询、集合查询的方法和技巧
  • 【应用】
  • MySQL 平台下的 SQL 交互操作
3、Hive 数据仓库基础
4、Hive 的基本命令
  • 【领会】

  • Hive 中的数据库概念、修改数据库

  • 【熟知】

  • 创建表、管理表、外部表、分区表、删除表

  • 【应用】

  • 向表中增加数据

  • 通过查询语句向表中插入数据

  • 单个查询语句中创建表并加载数据

  • 导出数据

5、Hive 中检索数据
  • 【领会】

  • Hive 中的命令语句是类 SQL 语句

  • 【熟知】

  • SELECT…FROM 语句

  • 【应用】

  • 使用列值进行计算、算术运算符、使用函数、列别名、嵌套 SELECT 语句、WHERE 语句、group by 语句、集合运算、多表连接、内连接、外连接、笛卡尔积连接、order by 语句、 抽样查询、视图。

6、Sqoop 基础
7、HBase 理论及实战
  • 【领会】
  • HBase 的基础概念、数据模型、存储模型
  • HBase 集群配置参数分析
  • HBase 集群查看方式
  • 【熟知】
  • HBase shell 常用的操作命令
  • HBase 的参数配置
  • HBase 的每个数据单元的操作方式
  • 区域服务器(Region Server)和主服务器(Master Server)的管理模式
  • HBase 的存储模式
  • 【应用】
  • HBase 的伪分布和集群的安装及配置
  • HBase 的 API 操作项目实战
PART 4 大数据分析数据挖掘理论基础
1、数据挖掘的基本思想
2、数据挖掘基础知识
  • 【熟知】
  • 数据、算法基本概念
  • 算法基本分类方法
  • 监督学习算法中的训练样本、测试样本、特征变量、目标变量(标签)等常用术语的相关定义
3、有监督学习算法
4、无监督学习算法
PART 5 大数据分析之 Spark 工具及实战
1、Spark 基础理论
  • 【领会】
  • Spark 大数据生态系统的功能与结构
  • Spark、Hadoop 之间的区别与联系
  • Spark 大数据生态系统的特点
  • Scala 基本语法
  • 【熟知】
  • Spark 生态系统中的四大核心组件
  • Spark 与 MapReduce 的对比与分析
  • Spark 与 MapReduce 适用的应用场景
  • Spark 的多种运行模式
  • 【应用】
  • 熟练掌握 Standalone 模式下 Spark 集群的搭建步骤
  • 配置文件中参数的具体含义
2、Spark RDD 基本概念与常用操作
  • 【领会】
  • Spark RDD 基本概念
  • Spark API
  • Spark 任务调度策略
  • 【熟知】
  • Spark RDD 的特性
  • RDD 上的转换操作、执行操作、持久化操作
  • RDD 之间的宽依赖关系与窄依赖关系 【应用】
  • 基于 Spark API 编写词频统计程序,并在词频统计程序基础上进行功能扩展,SparkContext、TaskScheduler、DAGScheduler 等核心代码的分析与调试。
3、Spark 流式计算框架 Spark Str eaming、Structur ed Str eaming
  • 【领会】
  • Kafka 分布式消息分发机制
  • Spark Streaming 应用场景
  • Spark Streaming 基本概念
  • Spark DStream 的存储级别
  • Structured Streaming 计算框架
  • 【熟知】
  • 批处理间隔、离散数据流 Spark DStream、窗口、滑动间隔、窗口间隔等重要概念
  • 熟练使用 Spark DStream 的相关操作
  • Spark Streaming 的三种应用模式,以及实现三种模式的相关操作
  • 【应用】
  • 搭建 Kafka 环境,能够将 Kafka 作为高级数据源时使用 Spark Streaming,基于 HDFS 上 文本数据创建 Spark DStream,并利用相关操作进行数据分析,基于网络中实时数据创建 Spark DStream,并结合窗口等概念和相关操作进行数据分析,基于无状态模式处理 HDFS 上的文本数据,基于 stateful 与 window 模式处理网络实时数据。
4、Spark 交互式数据查询框架 Spark SQL

【领会】

  • Spark SQL 的发展历程
  • Spark SQL 的性能
  • Spark SQLHive、Shark 之间的联系
  • Spark SQL 的应用场景
  • hive/console 的安装过程与基本原理
  • 【熟知】
  • 基于 Hadoop 搭建 Spark SQL 的测试环境
  • 掌握 LogicalPlan、SqlParser、Analyzer、Optimizer 等组件
  • SchemaRDD 的基本概念与相关操作
  • 不同数据源的运行计划
  • 不同查询的运行计划
  • 查询优化策略
  • 【应用】
  • HiveContext 与 SQLContext 的基础应用,利用 Spark SQL 对 JSON 文件、Parquet 文- 件以 及 Hive 上的数据进行交互式查询。
5、Spark 机器学习算法库 Spark MLlib 基本使用方法
  • 【领会】
  • Spark MLlib 的基本框架与原理
  • Spark MLlib 中 ML 库与 MLlib 库区别
  • 【熟知】
  • Spark MLlib 中矩阵向量运算方法
  • Spark MLlib 中常用统计计算方法
  • 【应用】
  • 能够利用 ML Pipelines 构建机器学习
  • 能够利用 TF-IDF、Word2Vec、CountVectorizer 等进行特征抽取、转化和选择
  • 能够利用 ML 进行机器学习模型建模,至少掌握以下常用模型建模方法,包括决策树逻辑回归、KMeans 聚类、GMM 高斯混合模型聚类协同过滤随机森林SVM 等模型
  • 能够利用 CrossValidator(交叉验证)和 TrainValidationSplit(训练验证分割)进行模型评估与参数调优
6、Spark 图计算框架 Gr apX
  • 【领会】
  • Spark GraphX 简介
  • Spark GraphX、GraphLab、Pregel 的联系与区别
  • Spark GraphX 中表视图与图视图的两种数据的转换
  • 图论基本概念
  • 【熟知】
  • Spark GraphX 中数据的主要表示形式
  • 图的存储模型
  • Spark GraphX 提供的切分策略
  • 图的构建操作
  • 图的属性操作
  • 图的结构操作
  • 【应用】
  • Spark GraphX 源码分析与调试
  • 基于 Pregel 的 API 实现图的 PageRank 和最短路径算法
PART 6 大数据分析数据可视化方法
1、数据可视化入门基础
2、Python 数据可视化
  • 【领会】
  • Python 可视化发展近况及其优势
  • 【熟知】
  • Python 数据可视化常用包的安装与更新,包括 Matplotlib、Seaborn 等
  • 利用 Matplotlib、Seaborne 绘制常用可视化图形
3、Python 高级可视化方法
  • 【领会】
  • Echarts 基本情况与主要应用背景
  • 【熟知】
  • echarts/' style='color:#000;font-size:inherit;'>Pyecharts 的安装与更新
  • 利用 echarts/' style='color:#000;font-size:inherit;'>Pyecharts 绘制常见可视化图形
PART 6 大数据分析实战
1、利用 HDFS Shell 操作 HDFS 文件系统
  • 【熟知】
  • HDFS 常用命令,包括创建文件目录命令、文件传输命令、文件修改及删除命令等
2、利用 Hive SQL 进行数据清洗
3、利用 Sqoop 进行数据传输
  • 【熟知】
  • 能够灵活使用 Sqoop shell 命令进行文件在 Hadoop 中与 MySQL 数据库中的转化操作, 以达到文件传输要求
4、利用 Spark SQL 进行数据读取
5、Spark MLlib 进行机器学习建模
  • 【熟知】
  • 能够根据分析要求,灵活调用 MLlib 中的相关算法进行分析,并能进一步构建机器学习 流,能够利用调参工具对模型进行调优,能够利用模型评估指标最终建模结果进行评估。
6、利用 Python 进行建模结果数据可视化
  • 最终建模完成后,结合实际业务场景和演示需求,将建模结果导入本地,并利用 Pyhton 工具,合理选择对应第三方库,对建模结果进行数据可视化演示。

什么专业适合考?

大数据专业是一个跨学科的领域,涵盖了数学、统计学、计算机科学与技术等多个学科。随着数据在各个行业中的重要性日益增加,大数据专业的学习内容也变得愈发丰富和复杂。本文将详细介绍大数据专业的核心课程和学习内容,帮助大家更好地了解这个领域。

基础课程

数学与统计
  • 数学分析:数学分析是大数据专业的基础课程之一,主要包括微积分、函数论等内容。这些知识对于理解算法和模型的数学原理至关重要。
  • 高等代数:高等代数课程主要涉及矩阵理论、线性代数等内容,这些知识在数据处理机器学习算法中有广泛的应用。
  • 概率与统计:概率与统计是数据分析的核心工具,帮助学生理解数据的分布特性和统计推断方法。
  • 最优化理论:最优化理论课程主要研究如何在给定条件下找到最优解,这在机器学习模型的训练中非常重要。
  • 离散数学:离散数学涉及图论、组合数学等内容,这些知识在数据结构和算法设计中有重要应用。
计算机科学
  • 计算机网络:计算机网络课程帮助学生理解数据在网络中的传输和处理方式,对于大数据的分布式处理非常关键。
  • Python编程:Python是一种广泛应用于数据分析和机器学习的编程语言,学生需要掌握Python的基础语法和常用库。
  • 数据库管理:数据库管理课程主要讲解关系型数据库和非关系型数据库的设计与管理,帮助学生理解数据存储和查询的基本原理。

核心课程

数据结构与算法
大数据技术与应用
  • 大数据技术基础:这门课程主要介绍大数据技术的基本概念和架构,帮助学生建立对大数据技术的整体认知。
  • 大数据智能分析理论与方法:这门课程主要研究如何利用人工智能技术对大规模数据进行智能分析。
  • 大数据管理方法与应用:这门课程主要讲解大数据的管理方法和实际应用,包括数据治理数据质量管理等内容。
数据处理与分析

选修课程

数据科学与应用
  • 数据科学算法导论:这门课程主要介绍数据科学中的常用算法和技术,帮助学生理解数据科学的基本原理和应用。
  • 数据科学专题:数据科学专题课程主要研究数据科学中的前沿问题和新技术,帮助学生了解数据科学的发展趋势。
  • 数据科学实践:这门课程主要通过实际项目训练学生的数据分析和解决问题的能力。
商务智能与可视化
  • 商务智能基础:商务智能基础课程主要讲解如何利用数据分析技术支持商业决策。
  • 数据可视化:大数据可视化课程主要研究如何将复杂的数据通过图表和图形的方式直观地展示出来,帮助用户更好地理解数据。
大数据技术
实践技能
  • 数据采集与处理 学生需要掌握数据采集、处理和呈现的技术,熟练使用多种软件进行数据分析和可视化。例如,学生可以使用Python编写脚本从网络上抓取数据,并使用Pandas进行数据清洗和分析。通过这些实践,学生可以提升处理大规模数据和挖掘价值的能力。

  • 编程语言 掌握编程语言如Java、Python、Scala等在大数据领域的应用是非常重要的。这些编程语言在大数据处理机器学习和数据分析中有广泛的应用。例如,学生可以使用Python编写机器学习算法,使用Scala开发Spark应用程序。

  • 跨学科知识 大数据专业是一个交叉学科,涉及统计学、数学、计算机科学等多个领域。学生需要具备较强的理论分析和解决实际问题的能力。例如,学生在学习数据挖掘时,需要结合统计学和计算机科学的知识,设计和实现高效的数据挖掘算法。

通过这些课程的学习,学生可以提升处理大规模数据和挖掘价值的能力,为未来从事数据相关职业做好准备。值得一提的是,获得CDA(Certified Data Analyst)认证可以显著提升学生在就业市场的竞争力。CDA认证是行业内广泛认可的技能认证,能够证明持有者在数据分析领域具备扎实的理论基础和实践能力。

CDA官网链接:https://www.cdaglobal.com

这里分享一个你一定用得到的小程序——CDA数据分析师考试小程序。 它是专为CDA数据分析认证考试报考打造的一款小程序。可以帮你快速报名考试、查成绩、查证书、查积分,通过该小程序,考生可以享受更便捷的服务。 扫码加入CDA小程序,与圈内考生一同学习、交流、进步!

总之,大数据专业的学习内容丰富而广泛,涵盖了从基础理论到实际应用的各个方面。通过系统的学习和实践,学生不仅可以掌握大数据技术的核心知识,还能培养解决实际问题的能力,为未来的职业发展打下坚实的基础。希望这篇文章能帮助大家更好地了解大数据专业的学习内容,并激发对这一领域的兴趣和热情。

最新资讯
更多
客服在线
立即咨询