week_012 总结

用户头像
徐培
关注
发布于: 2020 年 09 月 02 日

1.没有数据的存储就没有一切,没有计算,没有存储没有分析。

2.HDFS->{name_node,data_node}

3.map_reduce是一切的基石,得搞清楚。技术要点和解决方案。

4.学别人的技术就都不是顶尖的技术了,不是顶尖的,就规规矩矩得在路上走。

5.所有的map_reduce的输出必然是一个key-value结构。

6.map_reduce的排序不是为了执行某种逻辑,而是如果相同的key需要有顺序要求。网络copy会把相同的key拷贝在一起。

7.broker是HFDFS的概念,split是map_reduce的概念;这两个可以统一可以不统一,统一的话效率更高一点。

8.map函数写满一个buffer就把排序号的数据spill到硬盘中去。

9.相同key的放在一个reduce中去,可以有多个不同的reduce进程。

10.大数据领域最重要的一个单词:values exchanged by shuffle process。(不同的Key分发到不同的reduce进程中去)

11.组成有向无环图

12.JobTracker作业管理

13.TaskTracker最佳实践总是DataNode放在一起。

14.

15.目标是能报所有一切自己实现出来(简版.....

16.只是没时间去做这么个东西,但这些东西需要的知识储备是足够的。

17.公司不同团队对公司的价值是不一样的,优先服务为公司创造利益的团队,调度算法很重要,要协调好相关关系人。

18.这个技术要解决的问题是什么?问题比技术重要。

20.Yarn->{resource_manager,node_manager}

21.Map Join,大小表之间的关联,可以将小表先加载到所有map机器的内存中,直接在map阶段进行reduce,这样可以减少网络传输。

22.hive没有insert操作,可以写到一个文本文档里,再用load将文档和表关联起来。

用户头像

徐培

关注

还未添加个人签名 2018.10.31 加入

还未添加个人简介

评论

发布
暂无评论
week_012 总结