架构师训练营第 0 期第 12 周作业
作业一(任选其一):
在你所在的公司(行业、领域),正在用大数据处理哪些业务?可以用大数据实现哪些价值?
大数据应用领域及价值
医学影像智能化识别
病例大数据智能诊疗
AI外语老师
智能解题
舆情监控与分析
大数据风控
新零售
无人驾驶
分析如下 HiveQL,生成的 MapReduce 执行程序,map 函数输入是什么?输出是什么,reduce 函数输入是什么?输出是什么?
Page_view 表和 user 表结构与数据示例如下:
map函数输入/输出,以及reduce函数输入/输出如下图。
二:
根据当周学习情况,完成一篇学习总结。
大数据概述
大数据技术发展史
大数据应用发展史
大数据应用领域
医学影像智能化识别
病例大数据智能诊疗
AI外语老师
智能解题
舆情监控与分析
大数据风控
新零售
无人驾驶
HDFS
常用RAID技术
HDFS系统架构
数据存储细节
HDFS设计目标
不适合HDFS的场景
设计目标
文件
分而治之(Divide and Conquer)
NameNode
DataNode
HDFS关键运行机制 - 高可用
HDFS如何写文件?
HDFS如何读文件?
节点失效是常态
DataNode中的磁盘挂了怎么办?
DataNode所在机器挂了怎么办?
NameNode挂了怎么办?
Client挂了怎么办?
HDFS一致性模型
副本摆放策略
压缩
SequenceFile
HDFS文件接口
Java接口
MapReduce
MapReduce:大规模数据处理
MapReduce的特性
MapReduce
WordCount举例
MapReduce的WordCount
InputFormat
FileInputFormat
OutputFormat
Partitioner
主要调度方法
JobTracker内部实现
JobTracker容错
TaskTracker容错
Task容错
Record容错
Yarn
YARN:Yet Another Resource Negotiator
Yarn的工作流程(MapReduce为例)
Hive
Hive架构
Hive执行流程
Hive编译器
Example Query (Filter)
Example Query (Aggregation)
Example Query (multi-group-by)
Hive Metastore
Single User Mode (Default)
Multi User Mode
Remote Server
Hive QL – Join
Hive QL – Join in Map Reduce
Join Optimizations
Hive QL – Map Join
评论