week13-- 课后总结
1. spark
特点:
DAG 切分的多阶段计算过程更快速
使用内存存储结算结果更高效
RDD 的编程模型更简单
WordCount 示例
RDD 函数
转换函数:返回值为 RDD
执行函数:不返回 RDD
执行过程
2.流式计算
1、Storm 作 实时计算系统,包含以下特性:
低延迟
高性能
分布式
可伸缩
高可用
2、Spark Streaming
需要解决的问题:
解决 流式输入的数据计算
设计思路:
Spark Streaming 将数据 进行分段,数据分段的 一批批数据,
将批处理 转换为 流式处理,
再交给 Spark Engine ,按 批处理 计算数据;
3.大数据可视化
数据大屏
互联网运营常用数据指标
新增用户数
用户留存率
活跃用户数
PV
GMV
转化率
4.大数据与机器学习算法
PageRank 算法
KNN 分类算法
数据的距离算法
提取文本的特征值 TF-IDF 算法
贝叶斯分类算法
K-means 聚类算法
推荐引擎算法
基于人口统计的推荐
基于商品属性的推荐
基于用户的协同过滤推荐
基于商品的协同过滤推荐
机器学习系统架构
5.关于思考和设计
关于思维习惯
思维习惯是可以训练的,要学会训练自己的思维习惯;
通过训练进行突破,不要因为天赋不够就放弃;
关于大型项目的源码
看一些好的文章分析;
或者通过日志分析,在代码中搜索,看日志的上下文;
用技术去解决业务问题;
评论