写点什么

第十三周学习总结

用户头像
饭桶
关注
发布于: 2020 年 12 月 16 日

Spark



spark特点

1,dag切分的多阶段计算过程更快速,连续计算,中间不要输出。

2,使用内存存储中间计算结果更搞笑

3,rdd的编程模型更简单



只需要关心数据流的转化,而不需要像mr那样关心过程。

Rdd面向对象的大数据,更关注与对象(RDD)间的转化,针对rdd对象,不断的转化。

我们学习东西可以有一些不太完整或者完美的一些理解或者解释,但是这个理解或者解释能够让我们抓住是我的关键,这是我学习或者解决问题一种不错的思维方式。



RDD是分片的。tranformation分为两种,一种窄依赖,分片关系不会改变,一种是宽依赖,分片关系会发生改变。

惰性计算,只要生成新的rdd时候,才有有新的计算。



Storm

实时计算系统

  • 低延时

  • 高性能

  • 分布式

  • 可伸缩

  • 高可用



学知识的时候我们重要的是把一类技术,解决同一类场景的各种不同的技术,我们能够去把它抽象出来,去提出出来他们的共性的点是什么样子的,问题的共性点是什么样的,解决方案的共性点是什么样子,然后再去寻找解决思路不同点是什么样子,这样把技术就可以区分开来,然后就可以把技术点抓得住,和我们各种技术的特点,优缺点,我们也都理解,很快就掌握了。不要深入到细节里面去。



Hibench 用于测试大数据产品测试



大数据可视化

大数据基础技术,

大数据应用,一部分是数据分析,另一个部分就是机器学习或者算法

漏斗图,转化过程,分析每一步的转化率,将其放到同一个折线图里面。找到环节的原因。



根据TF-IDF得到文章的特征向量



机器学习本质

我们要得到一个模型,要想得到一个模型,需要使用一组样本数据,通过学习算法,得到这个模型,

使用,调用模型,把预测数据输入模型,模型的返回值就是我们预测的结果。



数学公式的推导,损失函数的最小时,一阶导数偏微分方程组



用户头像

饭桶

关注

还未添加个人签名 2020.07.27 加入

还未添加个人简介

评论

发布
暂无评论
第十三周学习总结