写点什么

week13- 作业二 - 根据当周学习情况,完成一篇学习总结

用户头像
未来已来
关注
发布于: 2021 年 02 月 06 日

一、大数据计算引擎 Spark

1、Spark VS Hadoop 逻辑回归

2、Spark 特点(Spark 为什么更快)DAG 切分的多阶段计算过程更快速;使用内存存储中间计算结果更高效;RDD 的编程模型更简单;

3、RDD Spark 编程模型;架构的核心;

这个过程,所有的算子,都是在相同节点内进行的,这里就体现了分布式、内存、迭代式计算,等几个 Spark 最显著的计算模型和特点,也是 Spark 较 MapReduce 这种计算模型速度更快的原因,MapRduce 的话,实现这个过程,必须要跨节点,走磁盘读写没有内存式、迭代式计算的特点。

4、作为编程模型的 RDD;

通过 RDD 理解架构,编程模型,架构元素

5、作为数据分片的 RDD-分片关系不变、内容数据格式变化[窄依赖,无 shuffle];分片关系变化、内容数据格式不变;[宽依赖 shuffle]

二、大数据计算引擎 Spark

1、RDD 也是物理模型,数据存储形式;

2、Spark 的计算阶段;

3、Spark 作业调度执行的核心是 DAG,整个应用就被切分成哪些阶段;

4、Spark 也需要通过 shuffle 将数据进行;

5、Spark 的作业管理;

6、Spark 的执行过程;

三、流处理计算:Flink、Storm、Sparking Streaming

1、流处理时间短;处理的数据量是一小批;流进的数据量也比较大;

2、实时计算系统:解决方案是 Storm 低延迟、高性能、分布式、高伸缩;

3、Storm 的基本概念:系统角色;编程模型

大数据的架构都是要解决:在一个分布式的集群上面,如何统一调度资源,完成数据处理计算,完成资源管理;

需求场景是一样的,解决方案思路是差不多的,只是实现上有很多自己的特点;比如 Hadoop、Storm;

流处理、批处理;

4、Spark Streaming

5、Flink 流处理计算、批处理计算;

流大了,成为批;批小了,成流;时间范围;架构思想 角色;

编程方法,内部执行思想

四、大数据基准测试工具 HiBench

1、Hibench 解决大数据从哪来,怎么构建这些数据;

2、这些常用的大数据算法,可以简单跑起来;

3、通过这些算法,可以测试我们的集群的性能,对应的处理能力;

4、构建的集群能否满足需要

五、大数据分析与可视化

1、大数据技术和大数据应用(数据分析、机器学习);

2、大数据分析-数据大屏-可视化;背后使用 大数据技术,进行流处理、批处理;

3、分析的更广

4、互联网运营常用数据指标:新增用户数、用户留存率、用户流失率、PV、GMV、转化率、散点图、热力图;

六、网页排名算法 PageRank

1、大数据应用场景:数据分析和机器学习;

2、网页排名算法 PageRank;

3、

通过链接来投票,

PR(A) = PR(B)/L(B)+PR(C)/L(C) +PR(D)/L(D);

PageRank(pi)=(1-d)/N

七、分类和聚类算法

1、KNN 分类算法,将其与一组已经分类标好的样本集合进行比较;

2、数据的距离算法;

3、提取文本的特征值 TF-IDF

4、贝叶斯分类算法;

5、K-means 聚类算法;根据一组数据,具成几类;分类是一个数据分到哪一类;

八、推荐引擎算法

1、推荐引擎算法;

2、基于人口统计的推荐;

3、基于商品属性的推荐;

4、基于用户的协同过滤推荐;

5、基于商品的协同过滤推荐;

九、机器学习与神经网络算法

1、机器学习系统架构

样本数据、学习算法、模型、预测数据、预测系统、预测结果

2、样本 训练数据

3、模型,样本的输入与结果建立一个映射关系;

4、转向、加油门;

5、函数类型 输入的样本与输出样本结果的关系;

6、算法;找出这些参数;迭代计算算法,

7、样本函数过于复杂;

8、神经网络在手写图片中的应用;

9、神经网络与围棋 AI;


用户头像

未来已来

关注

还未添加个人签名 2019.02.26 加入

还未添加个人简介

评论

发布
暂无评论
week13-作业二-根据当周学习情况,完成一篇学习总结