架构师训练营——第 13 周学习总结
Spark生态体系
- Spark SQL 
- Spark Streaming 
- MLlib 
- Graphx 
Spark特点
- DAG切分的多阶段计算过程更快速 
- 使用内存存储中间计算结果更高效 
- RDD(弹性数据集)的编程模型更简单 
RDD的函数
- 转换函数:返回值还是RDD,如计算、合并、过滤、连接、分组等操作 
- 不产生新分片 
- 产生新分片 
- 执行函数:不返回RDD 
Spark的计算阶段
Spark的作业管理
Spark的执行过程:SparkContext、Executor、Cache、Task
流式计算:
- Storm实时的Hadoop 
- Spark Streaming 
- Flink 
实时计算系统特点:低延迟、高性能、分布式、可伸缩、高可用
HiBench(大数据压测工具集)
- Micro BenchMarks 
- HDFS BenchMarks:测试HDFS吞吐 
- Web Search BenchMarks:搜索引擎负载测试 
- Data Analytics BenchMarks:Hive测试 
- Machine Learning BenchMarks:机器学习 
大数据可视化
- 新增用户数:日、月、周 
- 用户留存率:=留存用户数/当期新增用户数,3日、5日、7日等,40%以上就不错了 
- 活跃用户数: 
- PV:网页访问重要指标,app上要进行一些变通统计 
- GMV:成交总金额;相关指标还有订单量、客单价 
- 转化率:=有购买行为的用户数/访问用户数总数 
数据可视化图表与数据监控
- 折线图:看趋势 
- 散点图:发现规律与趋势 
- 热力图:分析访问的热点区域 
- 漏斗图:表示用户访问路径中每一步的转化率,可找出分析瓶颈点 
PageRank算法:让链接来投票
KNN算法:K临近算法
数据的距离算法
- 欧氏距离计算公式 
- 余弦相似度计算公式 
提取文本的特征值TF-IDF算法
贝叶斯分类算法
K-Means聚类算法
推荐算法
- 基于人口统计的推荐 
- 基于商品属性的推荐 
- 基于用户的协同过滤推荐 
- 基于商品的协同过滤推荐 
机器学习系统架构
- 样本:训练数据,包含输入和结果两部分 
- 模型:映射样本输入和结果的函数,可能是一个条件分布概率,也可能是一个决策函数 
- 感知机:一种简单的二分类模型,一条直线将平面上的两类点分类 
- 神经网络: 
- 算法:从模型的假设空间中寻找一个最优的函数,使得经过改函数得到的结果和真实结果差距最小 
- 机器学习原理:给定函数模型的情况下,如何寻找结构风险最小的函数表达式。 
 
  
  
  
  
  
  
  
  
    
评论