架构师训练营第十三周 - 总结
Spark
Spark生态体系
Spark SQL
Spark Streaming
MLlib
GraphX
Spark特点(Spark为什么更快)
DAG切分的多阶段计算过程更快速
使用内存存储中间计算结果更高效
RDD的编程模型更简单
作为编程模型的RDD
RDD既是Spark面向开发者的编程模型,又是Spark自身架构的核心元素
作为数据分片的RDD
Spark分布式计算的数据分片、任务调度都是以RDD为单位展开的,每个RDD分片都会被分配到一个执行进程去处理
Spark的计算阶段
Spark可以根据应用的复杂程度,分割成更多的计算阶段(stage),这些计算阶段组成一个有向无环图DAG,Spark任务调度器可以根据DAG的依赖关系执行计算阶段。
Spark的作业管理
Spark的RDD函数有两种,一种是转换函数,调用以后得到的还是一个RDD;另一种是action函数,调用以后不再返回RDD
流计算
Storm实时的Hadoop
实时计算系统
低延迟
高性能
分布式
可伸缩
高可用
Storm应用场景
Storm被广泛用来进行实时日志处理,出现在实时统计,实时风控,实时推荐等场景中。
Spark Streaming
Spark版本的Storm
Flink
下一代Spark
大数据可视化
互联网运营常用数据指标
新增用户数
用户留存率
活跃用户数
PV
GMV
转化率
数据可视化图表与数据监控
折线图
散点图
热力图
漏斗图
大数据算法与机器学习
Google的网页排名算法PageRank
贝叶斯分类算法
K-means聚类算法
推荐引擎算法
机器学习系统架构
版权声明: 本文为 InfoQ 作者【人世间】的原创文章。
原文链接:【http://xie.infoq.cn/article/e399def2e506ff2ec4cc71be9】。
本文遵守【CC-BY 4.0】协议,转载请保留原文出处及本版权声明。
评论