写点什么

架构师训练营第十三周 - 总结

用户头像
人世间
关注
发布于: 2020 年 09 月 09 日

Spark

Spark生态体系

Spark SQL

Spark Streaming

MLlib

GraphX

Spark特点(Spark为什么更快)

DAG切分的多阶段计算过程更快速

使用内存存储中间计算结果更高效

RDD的编程模型更简单

作为编程模型的RDD

RDD既是Spark面向开发者的编程模型,又是Spark自身架构的核心元素

作为数据分片的RDD

Spark分布式计算的数据分片、任务调度都是以RDD为单位展开的,每个RDD分片都会被分配到一个执行进程去处理

Spark的计算阶段

Spark可以根据应用的复杂程度,分割成更多的计算阶段(stage),这些计算阶段组成一个有向无环图DAG,Spark任务调度器可以根据DAG的依赖关系执行计算阶段。



Spark的作业管理

Spark的RDD函数有两种,一种是转换函数,调用以后得到的还是一个RDD;另一种是action函数,调用以后不再返回RDD



流计算

Storm实时的Hadoop

实时计算系统

  • 低延迟

  • 高性能

  • 分布式

  • 可伸缩

  • 高可用



Storm应用场景

Storm被广泛用来进行实时日志处理,出现在实时统计,实时风控,实时推荐等场景中。

Spark Streaming

Spark版本的Storm

Flink

下一代Spark



大数据可视化

互联网运营常用数据指标

  • 新增用户数

  • 用户留存率

  • 活跃用户数

  • PV

  • GMV

  • 转化率

数据可视化图表与数据监控

  • 折线图

  • 散点图

  • 热力图

  • 漏斗图

大数据算法与机器学习

Google的网页排名算法PageRank

贝叶斯分类算法

K-means聚类算法

推荐引擎算法

机器学习系统架构



发布于: 2020 年 09 月 09 日阅读数: 45
用户头像

人世间

关注

还未添加个人签名 2018.08.21 加入

还未添加个人简介

评论

发布
暂无评论
架构师训练营第十三周-总结