热线电话:13121318867

登录
首页大数据时代大数据分析师培训学什么
大数据分析师培训学什么
2024-09-29
收藏

大数据分析师培训学什么

课程简介

大数据分析师课程以大数据分析技术为主线,以大数据分析师为培养目标,从数据分析基础、linux操作系统入门知识学起,系统介绍HadoopHDFS、MapReduce、HiveHbase等理论知识和基于Spark平台的大数据分析机器学习应用,详细演示Hadoop三种模式的安装配置,以案例的形式,讲解基于PySpark技术的回归、分类和聚类分析等大数据分析场景和案例。

课程的重点是培养学员基于Hadoop架构的大数据分析实操能力,从零开始学习hadoop搭建,掌握Spark,手把手带练,8周成为行业急需的大数据分析人才,学完即可满足CDA LEVEL II大数据分析师考试知识考核需求。讲解案例包括但不限于金融大数据分析、气象大数据分析、Web海量日志大数据分析、智慧高速大数据分析等。

学习目标

学习大纲

01章预习课程

02章大数据前沿应用与开源框架Hadoop

  • 01-01大数据时代前沿与技术
  • 01-02Hadoop生态系统和技术栈
  • 01-03Hadoop单机环境搭建
  • 01-04Hadoop伪分布式集群搭建
  • 01-05Hadoop完全分布式集群搭建
  • 01-06安装和使用Ubuntu系统
  • 01-07HDFS分布式文件系统介绍
  • 01-08HFDS进行文件读写操作
  • 01-09MapReduce编程概念、框架和流程
  • 01-10Hadoop & Yarn知识介绍

03章分布式数据仓库技术-Hbase/Hive

04章关系型数据库技术-Mysql理论及实战

  • 01-01数据库的概念与技术、创建数据库
  • 01-02数据表操作、数据类型与约束条件
  • 01-03数据表插入数据与导入外部数据方法
  • 01-04检查与修改数据表
  • 01-05SQL常用函数介绍
  • 01-06SQL单表查询与多表查询
  • 01-07查询操作符与子查询
  • 01-07SQL实战:使用SQL语句处理及查询电商业务数据

05章分布式计算引擎-Spark入门

  • 01-01Scala语法知识介绍
  • 01-02Scala函数
  • 01-03Scala对象操作
  • 01-04Spark简介
  • 01-05Spark运行架构
  • 01-06RDD的创建和操作
  • 01-07Spark SQL简介
  • 01-07临时表和SQL查询

06章分布式计算引擎-Spark进阶

  • 01-01日志采集系统Flume和分布式消息队列Kafka入门
  • 01-02流式计算框架Spark Streaming基本原理及使用方法
  • 01-03流式计算框架Structured Streaming基本原理及使用方法
  • 01-04Spark GraphX入门及基本使用方法
  • 01-05分布式算法库Spark MlLib入门介绍
  • 01-06Spark ML与Spark MLLib
  • 01-07机器学习工作流
  • 01-08机器学习项目-房价预测

07章大数据可视化

08章大数据与Python结合-Pyspark机器学习

09章大数据企业项目案例实做

  • 01-01基于大数据平台的互联网金融监管实战
  • 01-02大数据交通案例
  • 01-03大数据金融案例
最新资讯
更多
客服在线
立即咨询