week13- 作业二 - 根据当周学习情况,完成一篇学习总结
一、大数据计算引擎 Spark
1、Spark VS Hadoop 逻辑回归
2、Spark 特点(Spark 为什么更快)DAG 切分的多阶段计算过程更快速;使用内存存储中间计算结果更高效;RDD 的编程模型更简单;
3、RDD Spark 编程模型;架构的核心;
这个过程,所有的算子,都是在相同节点内进行的,这里就体现了分布式、内存、迭代式计算,等几个 Spark 最显著的计算模型和特点,也是 Spark 较 MapReduce 这种计算模型速度更快的原因,MapRduce 的话,实现这个过程,必须要跨节点,走磁盘读写没有内存式、迭代式计算的特点。
4、作为编程模型的 RDD;
通过 RDD 理解架构,编程模型,架构元素
5、作为数据分片的 RDD-分片关系不变、内容数据格式变化[窄依赖,无 shuffle];分片关系变化、内容数据格式不变;[宽依赖 shuffle]
二、大数据计算引擎 Spark
1、RDD 也是物理模型,数据存储形式;
2、Spark 的计算阶段;
3、Spark 作业调度执行的核心是 DAG,整个应用就被切分成哪些阶段;
4、Spark 也需要通过 shuffle 将数据进行;
5、Spark 的作业管理;
6、Spark 的执行过程;
三、流处理计算:Flink、Storm、Sparking Streaming
1、流处理时间短;处理的数据量是一小批;流进的数据量也比较大;
2、实时计算系统:解决方案是 Storm 低延迟、高性能、分布式、高伸缩;
3、Storm 的基本概念:系统角色;编程模型
大数据的架构都是要解决:在一个分布式的集群上面,如何统一调度资源,完成数据处理计算,完成资源管理;
需求场景是一样的,解决方案思路是差不多的,只是实现上有很多自己的特点;比如 Hadoop、Storm;
流处理、批处理;
4、Spark Streaming
5、Flink 流处理计算、批处理计算;
流大了,成为批;批小了,成流;时间范围;架构思想 角色;
编程方法,内部执行思想
四、大数据基准测试工具 HiBench
1、Hibench 解决大数据从哪来,怎么构建这些数据;
2、这些常用的大数据算法,可以简单跑起来;
3、通过这些算法,可以测试我们的集群的性能,对应的处理能力;
4、构建的集群能否满足需要
五、大数据分析与可视化
1、大数据技术和大数据应用(数据分析、机器学习);
2、大数据分析-数据大屏-可视化;背后使用 大数据技术,进行流处理、批处理;
3、分析的更广
4、互联网运营常用数据指标:新增用户数、用户留存率、用户流失率、PV、GMV、转化率、散点图、热力图;
六、网页排名算法 PageRank
1、大数据应用场景:数据分析和机器学习;
2、网页排名算法 PageRank;
3、
通过链接来投票,
PR(A) = PR(B)/L(B)+PR(C)/L(C) +PR(D)/L(D);
PageRank(pi)=(1-d)/N
七、分类和聚类算法
1、KNN 分类算法,将其与一组已经分类标好的样本集合进行比较;
2、数据的距离算法;
3、提取文本的特征值 TF-IDF
4、贝叶斯分类算法;
5、K-means 聚类算法;根据一组数据,具成几类;分类是一个数据分到哪一类;
八、推荐引擎算法
1、推荐引擎算法;
2、基于人口统计的推荐;
3、基于商品属性的推荐;
4、基于用户的协同过滤推荐;
5、基于商品的协同过滤推荐;
九、机器学习与神经网络算法
1、机器学习系统架构
样本数据、学习算法、模型、预测数据、预测系统、预测结果
2、样本 训练数据
3、模型,样本的输入与结果建立一个映射关系;
4、转向、加油门;
5、函数类型 输入的样本与输出样本结果的关系;
6、算法;找出这些参数;迭代计算算法,
7、样本函数过于复杂;
8、神经网络在手写图片中的应用;
9、神经网络与围棋 AI;
评论