奈学教育《大数据开发工程师》课程大纲

发布于: 2020 年 06 月 22 日

本课程针对企业不同数据规模技术方案进行讲解,紧贴企业热门需求,深入讲解企业级大数据技术的数据存储技术、数据采集技术、数据处理技术、任务调度技术等;课程针对知识点进行企业级案例式教学,理论结合实战,从0到1构建大数据生态技术的方方面面,内容涵盖大数据平台、Spark、Flink、OLAP等核心技术;用真实的企业级实时数仓项目、离线数仓项目、PB级实时用户行为分析系统、千亿级实时广告系统等多个大型项目,把大数据生态技术知识串连起来,让学员形成自己的技术栈,真正成为企业级的大数据开发工程师!

阶段一:小规模数据处理篇

第一单元

掌握Python基础语法

1. 集合类型

2. 条件,循环

3. 文件操作

4. 函数和函数式编程

5. 面向对象

第二单元

掌握NumPy进行数据分析

1. NumPy基本使用

2. Numpy进阶知识

第三单元

掌握Pandas进行数据分析

1. Pandas基础知识

2. Series数据结构

3. DataFrame数据结构

4. 综合案例演示

阶段二:中等规模数据处理篇

第四单元

掌握Elastichsearch核心设计

1. Elastichsearch总体架构设计

2. Elastichsearch核心流程分析

3. Elastichsearch核心概念详解

第五单元

掌握Elastichsearch API使用与调优

1. Elastichsearch语法详解

2. Elastichsearch容错原理剖析

3. Elastichsearch性能调优

第六单元

掌握ELK生态针对中等数据规模的方案实践

1. Logstash原理剖析与实战

2. Kibana原理剖析与实战

3. 企业级海量日志分析系统实战

阶段三:大数据基础平台篇

第七单元

掌握ZooKeeper核心设计与应用

1. ZooKeeper架构设计原理

2. ZooKeeper核心读写流程剖析

3. ZooKeeper企业应用场景实战

第八单元

掌握HDFS核心架构原理

1. 大数据基础知识

2. HDFS架构设计原理

第九单元

掌握HDFS企业级架构方案设计

1. HDFS高可用架构设计

2. HDFS联邦架构设计

3. HDFS企业级集群部署

第十单元

掌握MapReduce分布式计算模型

1. MapReduce核心原理剖析

2. MapReduce Shuffle机制深度剖析

3. MapReduce案例实操

第十一单元

掌握YARN任务调度模型

1. YARN架构设计原理

2. YARN核心运行流程

阶段四:大数据存储篇

第十二单元

掌握Hive核心架构设计

1. Hive生态体系

2. Hive集群安装

3. HQL语法精讲

第十三单元

掌握Hive企业实操

1. Hive函数精讲

2. Hive执行原理深度剖析

第十四单元

掌握Hive企业级解决方案

1. Hive企业级调优

2. Hive企业高频业务场景剖

第十五单元

掌握HBase核心架构原理

1. HBase架构设计原理剖析

2. HBase数据模型

3. HBase数据模型

4. HBase读写原理剖析

5. HBase企业级集群分布式部署

第十六单元

握HBase企业设计方案

1. HBase表设计

2. HBase RowKey设计

3. HBase二级索引方案实践

第十七单元

掌握Kafka核心架构设计

1. Kafka架构设计原理

2. Kafka核心概念深度剖析

第十八单元

掌握Kafka架构设计优势与运维

1. Kafka架构设计优势

2. Kafka集群部署与运维

第十九单元

掌握Kafka客户端原理与性能调优

1. Kafka生产者原理深度剖析

2. Kafka消费者原理

3. Kafka性能调优

阶段五:大数据采集篇

第二十单元

掌握Flume/Sqoop日志采集系统实践

1. Sqoop核心原理剖析

2. Sqoop企业案例实操

3. Flume核心原理剖析

4. Flume企业案例实操

阶段六:任务调度篇

第二十一单元

掌握Azkaban任务调度实践

1. Azkanban架构原理

2. Azkanban企业案例实操

阶段七:大数据处理篇

第二十二单元

掌握SparkCore核心原理(上)

1. Spark任务运行流程

2. RDD核心原理剖析

3. Spark任务运行模式

4. Spark核心算子案例实践

5. Spark企业级集群分布式部署

第二十三单元

掌握SparkCore核心原理(下)

1. 广播变量与累加变量原理剖析

2. 窄依赖和宽依赖原理剖析

3. Stage划分算法

4. Spark内存模型

第二十四单元

掌握SparkCore企业级调优

1. SparkCore企业级调优实践

第二十五单元

掌握SparkSQL核心原理与实践

1. SparkSQL的前世今生

2. DataFrame核心原理剖析

3. DataSet核心原理剖析

4. UDF/UDAF案例实践

第二十六单元

掌握SparkStreaming核心原理

1. SparkStreaming任务运行流程

2. DStream核心抽象原理剖析

第二十七单元

掌握SparkStreaming核心API企业实践

1. SparkStreaming高阶函数实操

2. SparkStreaming容错分析

第二十八单元

掌握SparkStreaming企业应用

1. SparkStreaming企业级数据令零丢失方案设计

2. SparkStreaming企业级监控告警方案设计

第二十九单元

掌握Flink任务调度原理与资源分配

1. Streaming运行原理

2. 数据传输策略

3. Flink并行度&Task原理剖析

4. Flink资源调度原理剖析

5. Flink集群分布式部署

第三十单元

掌握Flink-Streaming State核心设计与实践

1. State类型深度剖析

2. State核心原理深度剖析

3. Checkpoint & Savepoint企业实践

第三十一单元

掌握Flink-Streaming WasterMark核心设计与实践

1. Time时间类型详解

2. 有序事件与无序事件

3. WaterMark原理剖析与实践

第三十二单元

掌握Flink-Streaming Window核心设计与实践

1. Window原理深度剖析

2. Window触发原理深度剖析与实践

第三十三单元

掌握Flink-Streaming企业应用

1. 综合案例实践

第三十四单元

掌握Flink SQL企业实践

1. 1. Flink SQL编程详解

2. Flink SQL动态表与连续表

3. 表流转模式剖析

4. Flink SQL案例实践

第三十五单元

掌握Druid架构原理与实践

1. Druid架构设计原理

2. Druid案例实践

第三十六单元

掌握Kylin架构原理与实践

1. Kylin架构设计原理

2. Kylin案例实践

第三十七单元

掌握ClickHouse架构原理与实践

1. ClickHouse架构设计原理

2. ClickHouse案例实践

赠送知识

第一单元

企业级大数据集群部署和运维篇

1.Ambari功能概述

2.Ambari架构设计

3.Ambari基础环境准备

4.企业级集群部署安装

5.企业级集群管理和实践

6.ClouderaManager产生背景

7.ClouderaManager架构设计

8.企业级集群规划

9.ClouderaManager基础环境准备

10.企业级ClouderaManager集群部署安装

11.企业级CDH集群运维管理

第二单元

Java知识准备

1.Java基础知识

2.循环语句

3.面向对象

4.Java集合

5.Java多线程

6.Java IO详解

7.Java NIO详解

8.综合案例实践

第三单元

Scala知识准备

2.变量

3.数据类型

4.方法和函数

5.数组

6.类的定义

7.构造函数

8.Scala对象

9.Trait

10.Scala模式匹配

11.隐式转换

12.上界和下界

13.Actor

14.综合案例实践

第四单元

Linux/Shell知识准备

1.Linux操作系统介绍

2.Vmware安装和介绍

3.Linux命令分类

4.Linux命令详解

5.vi编辑器详解

6.用户和组

7.权限管理

8.crontab管理

9.网络

10文本处理

11.SSH协议

12.Shell编程

相关课程推荐:

大数据开发工程师

发布于: 2020 年 06 月 22 日 阅读数: 5
用户头像

古月木易

关注

还未添加个人签名 2020.06.08 加入

还未添加个人简介

评论

发布
暂无评论
奈学教育《大数据开发工程师》课程大纲