架构师训练营——第 13 周学习总结
Spark生态体系
Spark SQL
Spark Streaming
MLlib
Graphx
Spark特点
DAG切分的多阶段计算过程更快速
使用内存存储中间计算结果更高效
RDD(弹性数据集)的编程模型更简单
RDD的函数
转换函数:返回值还是RDD,如计算、合并、过滤、连接、分组等操作
不产生新分片
产生新分片
执行函数:不返回RDD
Spark的计算阶段
Spark的作业管理
Spark的执行过程:SparkContext、Executor、Cache、Task
流式计算:
Storm实时的Hadoop
Spark Streaming
Flink
实时计算系统特点:低延迟、高性能、分布式、可伸缩、高可用
HiBench(大数据压测工具集)
Micro BenchMarks
HDFS BenchMarks:测试HDFS吞吐
Web Search BenchMarks:搜索引擎负载测试
Data Analytics BenchMarks:Hive测试
Machine Learning BenchMarks:机器学习
大数据可视化
新增用户数:日、月、周
用户留存率:=留存用户数/当期新增用户数,3日、5日、7日等,40%以上就不错了
活跃用户数:
PV:网页访问重要指标,app上要进行一些变通统计
GMV:成交总金额;相关指标还有订单量、客单价
转化率:=有购买行为的用户数/访问用户数总数
数据可视化图表与数据监控
折线图:看趋势
散点图:发现规律与趋势
热力图:分析访问的热点区域
漏斗图:表示用户访问路径中每一步的转化率,可找出分析瓶颈点
PageRank算法:让链接来投票
KNN算法:K临近算法
数据的距离算法
欧氏距离计算公式
余弦相似度计算公式
提取文本的特征值TF-IDF算法
贝叶斯分类算法
K-Means聚类算法
推荐算法
基于人口统计的推荐
基于商品属性的推荐
基于用户的协同过滤推荐
基于商品的协同过滤推荐
机器学习系统架构
样本:训练数据,包含输入和结果两部分
模型:映射样本输入和结果的函数,可能是一个条件分布概率,也可能是一个决策函数
感知机:一种简单的二分类模型,一条直线将平面上的两类点分类
神经网络:
算法:从模型的假设空间中寻找一个最优的函数,使得经过改函数得到的结果和真实结果差距最小
机器学习原理:给定函数模型的情况下,如何寻找结构风险最小的函数表达式。
评论