架构师训练营第 13 周总结
Spark
特点
DAG 切分多阶段计算
使用内存存储中间结果
RDD(Resilient Distributed Datasets)编程模型
作业管理
转换函数:调用以后还是返回一个 RDD
Action 函数:调用后不返回 RDD
流计算引擎
实时计算系统特点
低延迟、高性能、分布式、可伸缩、高可用
Store 基本概念
Nimbus:负责资源分配和任务调度
Supervisor:接受 Nimbus 分配的任务,启停 Worker 进程
Worker:运行具体处理组件逻辑的进程
Task:Worker 中的每一个线程称为 Task
Storm 应用场景
实时日志处理、实时统计、实时风控、实时推荐
其他流处理计算引擎
Spark Streaming
Flink
大数据基准测试工具
HiBench
Micro Benchmarks
HDFS Benchmarks
Web Search Benchmarks
Data Analytics Benchmarks
Machine Learning Benchmarks
数据可视化
常见图表
折线图、散点图、热力图、漏斗图
大数据算法
PageRank
核心思想(受论文重要性算法启发):
如果一个网页被很多其他网页链接到的话说明这个网页比较重要,也就是 PageRank 值会相对较高
如果一个 PageRank 值很高的网页链接到一个其他的网页,那么被链接到的网页的 PageRank 值会相应地因此而提高。
计算过程:
给每个网页一个初始 PR 值。
通过投票算法不断迭代,直至达到平稳分布为止。
KNN 分类算法
一种基于向量距离的分类算法:把需要分类的数据,将其和一组已经分类标注好的样本集合进行比较,得到距离最近的 K 个样本,K 个样本最多归属的类别,就是这个需要分类数据的类别
贝叶斯分类算法
一种基于概率的分类算法
贝叶斯公式:P(B|A)=P(A|B)*P(B)/P(A)
K-means 聚类算法
随机取 K 个种子点
计算每个点离种子点之间的距离,离哪个种子点最近,该点就属于哪个集合(组)
对已经分好的 K 组数据,分别求出中心点
重复 2-3 步,当所有组中的数据不再变化时,聚类完成
推荐引擎算法
基于人口统计、基于商品属性、基于用户协同、基于商品协同
机器学习
算法原理:从模型假设空间中寻找一个最优函数,使得样本空间的输入经过模型函数的映射得到的结果与真实值之间的距离最小。
神经网络
一言难尽,此处省去 5000 字。。。
评论