写点什么

十二周作业 & 总结

用户头像
胡益
关注
发布于: 2021 年 02 月 21 日

作业一:

  • 分析如下 HiveQL,生成的 MapReduce 执行程序,map 函数输入是什么?输出是什么,reduce 函数输入是什么?输出是什么?

复制代码

INSERT OVERWRITE TABLE pv_usersSELECT pv.pageid, u.ageFROM page_view pv   JOIN user u   ON (pv.userid = u.userid);
复制代码

page_view 表和 user 表结构与数据示例如下



map 函数输入的是 key value。 key 是偏移量,value 是一行记录<userid,pageid>或<userid,age>

map 函数输出是 key value。key 是 userid, value 是 <表编号,pageid> 或 <表编号,age>

示意图如下:


reduce 函数输入是 key values。key 是 userid , values 是相同 userid 合并的 value 列表: <表编号,pageid> <表编号,age>

reduce 输出是不同表的 value 进行 jion 的结果

示意图如下:


作业二:

  • 根据当周学习情况,完成一篇学习总结


大数据技术发展史

  • 分布式文件系统 GFS

  • 大数据分布式计算框架 MapReduce

  • NoSQL 数据库系统 BigTable



常用技术

  • 大数据分析与大数据参考:Hive、Spark SQL

  • 大数据挖掘与机器学习:Mahout、MLlib、TensorFlow

  • 大数据批处理计算:MapReduce、Spark

  • 大数据流处理计算:Storm、Flink、Spark Streaming

  • NoSQL 系统:HBase、Cassandra

  • 大数据存储:HDFS



常用 RAID 技术

  • RAID0:提升写入速度

  • RAID1:增加备份功能

  • RAID10:提升写入速度+增加备份功能

  • RAID5:螺旋备份

  • RAID6:双螺旋备份

用户头像

胡益

关注

还未添加个人签名 2020.11.06 加入

还未添加个人简介

评论

发布
暂无评论
十二周作业&总结