写点什么

架构师训练营第十三周学习笔记

发布于: 2020 年 12 月 21 日

Map Reduce 和 Spark 的区别:

  • MapReduce:将计算过程分位 Map 和 Reduce 两个阶段。编程的重点是如果实现 Map 和 Reduce 两个操作,关注每一步的输入和输出是什么。

  • Spark:核心是弹性分布式数据集 RDD(Resilient Distributed Dataset)。重点是关注不同阶段的 RDD 的结构,以及在不同阶段间的 RDD 的转换方式上。

大数据框架的压测工具

HiBench

常用数据运营指标

  • 新增用户数

  • 用户留存率

  • 活跃用户数

  • PV(Page View)

  • 成交总金额 GMV(Gross Merchandise Volume),是电商网站统计营业额(流水)、反映网站营收能力的重要指标。和 GMV 配合使用的还有订单量(用户下单总量)、客单价(单个订单的平均价格)等。

  • 转化率(= 有购买行为的用户数 / 总访问用户数)

Page Rank 算法原理

参考命题作业

KNN 算法

KNN 算法,也叫 K 近邻(K Nearest Neighbour)算法。原理是:对于一个需要分类的数据,将其和一组已经分类标注好的样本集合进行比较,得到距离最近的 K 个样本,K 个样本最多归属的类别,就是这个需要分类数据的类别。

发布于: 2020 年 12 月 21 日阅读数: 15
用户头像

还未添加个人签名 2018.07.26 加入

还未添加个人简介

评论

发布
暂无评论
架构师训练营第十三周学习笔记