写点什么

架构师训练营第 0 期第 12 周作业

用户头像
无名氏
关注
发布于: 2020 年 09 月 02 日

作业一(任选其一):

  • 在你所在的公司(行业、领域),正在用大数据处理哪些业务?可以用大数据实现哪些价值?



  • 大数据应用领域及价值

  • 医学影像智能化识别

  • 病例大数据智能诊疗

  • AI外语老师

  • 智能解题

  • 舆情监控与分析

  • 大数据风控

  • 新零售

  • 无人驾驶



  • 分析如下 HiveQL,生成的 MapReduce 执行程序,map 函数输入是什么?输出是什么,reduce 函数输入是什么?输出是什么?



INSERT OVERWRITE TABLE pv_users
SELECT pv.pageid, u.age
FROM page_view pv
JOIN user u
ON (pv.userid = u.userid);

Page_view 表和 user 表结构与数据示例如下:



map函数输入/输出,以及reduce函数输入/输出如下图。



二:

根据当周学习情况,完成一篇学习总结。



  • 大数据概述

  • 大数据技术发展史

  • 大数据应用发展史

  • 大数据应用领域

  • 医学影像智能化识别

  • 病例大数据智能诊疗

  • AI外语老师

  • 智能解题

  • 舆情监控与分析

  • 大数据风控

  • 新零售

  • 无人驾驶

  • HDFS

  • 常用RAID技术

  • HDFS系统架构

  • 数据存储细节

  • HDFS设计目标

  • 不适合HDFS的场景

  • 设计目标

  • 文件

  • 分而治之(Divide and Conquer)

  • NameNode

  • DataNode

  • HDFS关键运行机制 - 高可用

  • HDFS如何写文件?

  • HDFS如何读文件?

  • 节点失效是常态

  • DataNode中的磁盘挂了怎么办?

  • DataNode所在机器挂了怎么办?

  • NameNode挂了怎么办?

  • Client挂了怎么办?

  • HDFS一致性模型

  • 副本摆放策略

  • 压缩

  • SequenceFile

  • HDFS文件接口

  • Java接口

  • MapReduce

  • MapReduce:大规模数据处理

  • MapReduce的特性

  • MapReduce

  • WordCount举例

  • MapReduce的WordCount

  • InputFormat

  • FileInputFormat

  • OutputFormat

  • Partitioner

  • 主要调度方法

  • JobTracker内部实现

  • JobTracker容错

  • TaskTracker容错

  • Task容错

  • Record容错

  • Yarn

  • YARN:Yet Another Resource Negotiator

  • Yarn的工作流程(MapReduce为例)

  • Hive

  • Hive架构

  • Hive执行流程

  • Hive编译器

  • Example Query (Filter)

  • Example Query (Aggregation)

  • Example Query (multi-group-by)

  • Hive Metastore

  • Single User Mode (Default)

  • Multi User Mode

  • Remote Server

  • Hive QL – Join

  • Hive QL – Join in Map Reduce

  • Join Optimizations

  • Hive QL – Map Join



用户头像

无名氏

关注

还未添加个人签名 2017.09.11 加入

还未添加个人简介

评论

发布
暂无评论
架构师训练营第 0 期第 12 周作业