Week 13 学习总结
1、Spark
1-1、Spark生态体系
1-2、Spark 与 Hadoop 的性能对比
1-3、Spark的特点
利用多阶段计算任务,构建复杂的计算任务,一次计算结果成为下一次计算输入;
MapReduce的Map和Reduce在磁盘中读写数据,速度慢;
Spark都是在内存中进行数据处理;
RDD编程模型,编码简单,降低编程复杂度;
面向数据对象编程;
宽依赖和窄依赖;
2、流式计算
1、Storm作 实时计算系统,包含以下特性:
低延迟
高性能
分布式
可伸缩
高可用
2、Spark Streaming
需要解决的问题:
解决 流式输入的数据计算
设计思路:
Spark Streaming 将数据 进行分段,数据分段的 一批批数据,
将批处理 转换为 流式处理,
再交给 Spark Engine ,按 批处理 计算数据;
3、关于思考和设计
3-1、关于思维习惯
思维习惯是可以训练的,要学会训练自己的思维习惯;
通过训练进行突破,不要因为天赋不够就放弃;
3-2、关于技术
为什么会有这么多语言?为什么会有那么多操作系统?这么多数据库?
最大的问题,是不是 别人做过的难道就不做了?
如果别人做过就不做了,是不行
需要微创新,
技术的架构原理和思想区别不大,
但是每种技术的实现都有各自的特点和优缺点,
从不同技术实现来找出创新;
3-3、关于大型项目的源码
看一些好的文章分析;
或者通过日志分析,在代码中搜索,看日志的上下文;
3-4、架构师的职责
要创造价值,用技术去解决业务问题;
分析业务问题是什么?怎么去解决;
架构师需要优先关注问题,问题是什么,以及想要的结果是什么;
找一个技术将 问题 和 想要的结果 之间 搭起桥梁;
评论