架构师训练营第十三周学习笔记
Map Reduce 和 Spark 的区别:
MapReduce:将计算过程分位 Map 和 Reduce 两个阶段。编程的重点是如果实现 Map 和 Reduce 两个操作,关注每一步的输入和输出是什么。
Spark:核心是弹性分布式数据集 RDD(Resilient Distributed Dataset)。重点是关注不同阶段的 RDD 的结构,以及在不同阶段间的 RDD 的转换方式上。
大数据框架的压测工具
HiBench
常用数据运营指标
新增用户数
用户留存率
活跃用户数
PV(Page View)
成交总金额 GMV(Gross Merchandise Volume),是电商网站统计营业额(流水)、反映网站营收能力的重要指标。和 GMV 配合使用的还有订单量(用户下单总量)、客单价(单个订单的平均价格)等。
转化率(= 有购买行为的用户数 / 总访问用户数)
Page Rank 算法原理
参考命题作业
KNN 算法
KNN 算法,也叫 K 近邻(K Nearest Neighbour)算法。原理是:对于一个需要分类的数据,将其和一组已经分类标注好的样本集合进行比较,得到距离最近的 K 个样本,K 个样本最多归属的类别,就是这个需要分类数据的类别。
版权声明: 本文为 InfoQ 作者【一马行千里】的原创文章。
原文链接:【http://xie.infoq.cn/article/ea72035047e86f85266cd4324】。文章转载请联系作者。
评论