架构师训练营——第 13 周学习总结

用户头像
jiangnanage
关注
发布于: 2020 年 09 月 09 日
Spark生态体系
  • Spark SQL

  • Spark Streaming

  • MLlib

  • Graphx

Spark特点
  • DAG切分的多阶段计算过程更快速

  • 使用内存存储中间计算结果更高效

  • RDD(弹性数据集)的编程模型更简单

RDD的函数
  • 转换函数:返回值还是RDD,如计算、合并、过滤、连接、分组等操作

  • 不产生新分片

  • 产生新分片

  • 执行函数:不返回RDD

Spark的计算阶段
Spark的作业管理
Spark的执行过程:SparkContext、Executor、Cache、Task
流式计算:
  • Storm实时的Hadoop

  • Spark Streaming

  • Flink

实时计算系统特点:低延迟、高性能、分布式、可伸缩、高可用
HiBench(大数据压测工具集)
  • Micro BenchMarks

  • HDFS BenchMarks:测试HDFS吞吐

  • Web Search BenchMarks:搜索引擎负载测试

  • Data Analytics BenchMarks:Hive测试

  • Machine Learning BenchMarks:机器学习

大数据可视化
  • 新增用户数:日、月、周

  • 用户留存率:=留存用户数/当期新增用户数,3日、5日、7日等,40%以上就不错了

  • 活跃用户数:

  • PV:网页访问重要指标,app上要进行一些变通统计

  • GMV:成交总金额;相关指标还有订单量、客单价

  • 转化率:=有购买行为的用户数/访问用户数总数

数据可视化图表与数据监控
  • 折线图:看趋势

  • 散点图:发现规律与趋势

  • 热力图:分析访问的热点区域

  • 漏斗图:表示用户访问路径中每一步的转化率,可找出分析瓶颈点

PageRank算法:让链接来投票
KNN算法:K临近算法
数据的距离算法
  • 欧氏距离计算公式

  • 余弦相似度计算公式

提取文本的特征值TF-IDF算法
贝叶斯分类算法
K-Means聚类算法
推荐算法
  • 基于人口统计的推荐

  • 基于商品属性的推荐

  • 基于用户的协同过滤推荐

  • 基于商品的协同过滤推荐

机器学习系统架构
  • 样本:训练数据,包含输入和结果两部分

  • 模型:映射样本输入和结果的函数,可能是一个条件分布概率,也可能是一个决策函数

  • 感知机:一种简单的二分类模型,一条直线将平面上的两类点分类

  • 神经网络:

  • 算法:从模型的假设空间中寻找一个最优的函数,使得经过改函数得到的结果和真实结果差距最小

  • 机器学习原理:给定函数模型的情况下,如何寻找结构风险最小的函数表达式。



用户头像

jiangnanage

关注

还未添加个人签名 2019.04.11 加入

还未添加个人简介

评论

发布
暂无评论
架构师训练营——第13周学习总结