写点什么

架构师训练营第 13 周总结

用户头像
邓昀垚
关注
发布于: 2020 年 12 月 20 日

Spark

特点

DAG 切分多阶段计算

使用内存存储中间结果

RDD(Resilient Distributed Datasets)编程模型

作业管理

转换函数:调用以后还是返回一个 RDD

Action 函数:调用后不返回 RDD

流计算引擎

实时计算系统特点

低延迟、高性能、分布式、可伸缩、高可用

Store 基本概念

  1. Nimbus:负责资源分配和任务调度

  2. Supervisor:接受 Nimbus 分配的任务,启停 Worker 进程

  3. Worker:运行具体处理组件逻辑的进程

  4. Task:Worker 中的每一个线程称为 Task

Storm 应用场景

实时日志处理、实时统计、实时风控、实时推荐

其他流处理计算引擎

  1. Spark Streaming

  2. Flink

大数据基准测试工具

  1. HiBench

  2. Micro Benchmarks

  3. HDFS Benchmarks

  4. Web Search Benchmarks

  5. Data Analytics Benchmarks

  6. Machine Learning Benchmarks

数据可视化

常见图表

折线图、散点图、热力图、漏斗图

大数据算法

PageRank

核心思想(受论文重要性算法启发):

  1. 如果一个网页被很多其他网页链接到的话说明这个网页比较重要,也就是 PageRank 值会相对较高

  2. 如果一个 PageRank 值很高的网页链接到一个其他的网页,那么被链接到的网页的 PageRank 值会相应地因此而提高。

计算过程

  1. 给每个网页一个初始 PR 值。

  2. 通过投票算法不断迭代,直至达到平稳分布为止。

KNN 分类算法

一种基于向量距离的分类算法:把需要分类的数据,将其和一组已经分类标注好的样本集合进行比较,得到距离最近的 K 个样本,K 个样本最多归属的类别,就是这个需要分类数据的类别

贝叶斯分类算法

一种基于概率的分类算法

贝叶斯公式:P(B|A)=P(A|B)*P(B)/P(A)

K-means 聚类算法

  1. 随机取 K 个种子点

  2. 计算每个点离种子点之间的距离,离哪个种子点最近,该点就属于哪个集合(组)

  3. 对已经分好的 K 组数据,分别求出中心点

  4. 重复 2-3 步,当所有组中的数据不再变化时,聚类完成

推荐引擎算法

基于人口统计、基于商品属性、基于用户协同、基于商品协同

机器学习

算法原理:从模型假设空间中寻找一个最优函数,使得样本空间的输入经过模型函数的映射得到的结果与真实值之间的距离最小。

神经网络

一言难尽,此处省去 5000 字。。。


用户头像

邓昀垚

关注

还未添加个人签名 2018.06.04 加入

还未添加个人简介

评论

发布
暂无评论
架构师训练营第13周总结