第十三周学习总结
Spark
spark特点
1,dag切分的多阶段计算过程更快速,连续计算,中间不要输出。
2,使用内存存储中间计算结果更搞笑
3,rdd的编程模型更简单
只需要关心数据流的转化,而不需要像mr那样关心过程。
Rdd面向对象的大数据,更关注与对象(RDD)间的转化,针对rdd对象,不断的转化。
我们学习东西可以有一些不太完整或者完美的一些理解或者解释,但是这个理解或者解释能够让我们抓住是我的关键,这是我学习或者解决问题一种不错的思维方式。
RDD是分片的。tranformation分为两种,一种窄依赖,分片关系不会改变,一种是宽依赖,分片关系会发生改变。
惰性计算,只要生成新的rdd时候,才有有新的计算。
Storm
实时计算系统
低延时
高性能
分布式
可伸缩
高可用
学知识的时候我们重要的是把一类技术,解决同一类场景的各种不同的技术,我们能够去把它抽象出来,去提出出来他们的共性的点是什么样子的,问题的共性点是什么样的,解决方案的共性点是什么样子,然后再去寻找解决思路不同点是什么样子,这样把技术就可以区分开来,然后就可以把技术点抓得住,和我们各种技术的特点,优缺点,我们也都理解,很快就掌握了。不要深入到细节里面去。
Hibench 用于测试大数据产品测试
大数据可视化
大数据基础技术,
大数据应用,一部分是数据分析,另一个部分就是机器学习或者算法
漏斗图,转化过程,分析每一步的转化率,将其放到同一个折线图里面。找到环节的原因。
根据TF-IDF得到文章的特征向量
机器学习本质
我们要得到一个模型,要想得到一个模型,需要使用一组样本数据,通过学习算法,得到这个模型,
使用,调用模型,把预测数据输入模型,模型的返回值就是我们预测的结果。
数学公式的推导,损失函数的最小时,一阶导数偏微分方程组
评论