架构师训练营 - 学习总结 第 13 周
本周主要讲解了Spark、流计算、大数据相关算法和场景。
1、Spark
更优秀、性能更高的大数据计算引擎
2、流计算:
特点:高性能、低延迟、分布式、高可用、可伸缩
3、大数据
互联网常用数据指标:
3.1、新增用户数
指单位时间内新增加的网站访问用户数。
3.2、用户留存率
指单位时间内,未流失的用户数与新增用户数的比值。
3.3、活跃用户数
指单位时间内,打开使用产品的用户数。
3.4、PV
PageView,指用户访问页面的总次数
3.5、GMV
Gross Merchandise Volume,指单位时间内的成交总额
3.6、转化率
指单位时间内,在产品内进行购买的用户数,与总访问用户数的比值
4、大数据算法
4.1、PageRank网页排名算法
4.2、KNN分类算法
4.3、聚类算法等
4.4、推荐算法,ITEM-CF、USER-CF
版权声明: 本文为 InfoQ 作者【水边】的原创文章。
原文链接:【http://xie.infoq.cn/article/db5658e0e1cc6c893e3fd004e】。文章转载请联系作者。
评论