架构师训练营第十三周学习总结
本周继续围绕大数据应用来学习相关的知识,包括 Spark、大数据应用场景和相关的数据分析算法,也包括了一些对机器学习的原理学习。
Spark
Spark 作为目前最热门的大数据计算框架,其和 Hadoop 最大的区别在于对分阶段计算过程是否有输出到磁盘,Spark 更多利用内存进行存储,而 Hadoop 会把许多中间过程记录到 HDFS 上,同时在迭代计算上性能也表现得比 Hadoop 好。
另外一个就是 Spark 支持流式计算,对于在多次操作特定数据集的实时计算场景,有不错的表现,这也是依赖于内存操作。
大数据应用场景
大数据应用场景还是比较多的,最为典型就是做大屏和报表,利用海量数据做出一些统计和分析图表。还有就是发现数据背后的商业价值,利用数据来分析用户的行为和喜好,主动为用户提供所需服务,增加更多的商机,此外还有一些对运营决策有帮助的一些场景,通过收集日志来分析用户增长率、日活率做决策分析,发现产品的问题。
数据分析和挖掘
数据分析和挖掘主要还是学习了几个典型的回归、分类和聚类模型的原理,通过这些原理加深对数据模型的概念,其背后就是用数据去推算出一个函数,之后不断用更多的数据去验证并修正函数上的各个系数。比较经典的有回归模型、分类模型等。通过对这些算法模型的认识,大致了解了大数据相关数据分析算法适用的场景以及一般数据分析的流程。
一般流程:采集数据->选择合适的算法去验证建立模型->用数据集进行训练->验证训练的模型->发布模型->不断修正模型。
最后还了解了一下机器学习的相关知识,包括感知机和神经网络。
可以说对于后续朝着数据分析领域发展打了一个科普的基础。
版权声明: 本文为 InfoQ 作者【Gosling】的原创文章。
原文链接:【http://xie.infoq.cn/article/fc2baf4817eb66923aa8772dc】。文章转载请联系作者。
评论