写点什么

架构师训练营 - 第十二周

用户头像
石子头
关注
发布于: 2021 年 01 月 11 日

作业一:

  • 分析如下 HiveQL,生成的 MapReduce 执行程序,map 函数输入是什么?输出是什么,reduce 函数输入是什么?输出是什么?

INSERT OVERWRITE TABLE pv_usersSELECT pv.pageid, u.ageFROM page_view pv   JOIN user u   ON (pv.userid = u.userid);
复制代码



page_view 表和 user 表结构与数据示例如下



Map

输入:原始的两张表

输出:同一个表的 key(userid)-value(二元组,<表编号, age/pageid>)



Reduce:

输入:同一个 key 的 key(userid)-value(二元组,<表编号, age/pageid>)

输出:同一个 key 对应的 pageid, age



示意图:







作业二:

  • 根据当周学习情况,完成一篇学习总结


大数据技术发展史

  • 分布式文件系统 GFS

  • 大数据分布式计算框架 MapReduce

  • NoSQL 数据库系统 BigTable



常用技术

  • 大数据分析与大数据参考:Hive、Spark SQL

  • 大数据挖掘与机器学习:Mahout、MLlib、TensorFlow

  • 大数据批处理计算:MapReduce、Spark

  • 大数据流处理计算:Storm、Flink、Spark Streaming

  • NoSQL 系统:HBase、Cassandra

  • 大数据存储:HDFS



常用 RAID 技术

  • RAID0:提升写入速度

  • RAID1:增加备份功能

  • RAID10:提升写入速度+增加备份功能

  • RAID5:螺旋备份

  • RAID6:双螺旋备份


用户头像

石子头

关注

还未添加个人签名 2018.03.16 加入

还未添加个人简介

评论

发布
暂无评论
架构师训练营 - 第十二周