写点什么

架构师 0 期 Week13 总结

用户头像
Nan Jiang
关注
发布于: 2020 年 09 月 09 日

本周李老师继续讲了大数据的批处理架构Spark和流处理架构的演进过程,介绍了各种大数据指标、可视化图表,描述了各类机器学习原理。

Spark的特点有三个,一个是支持分布分片计算的RDD弹性数据集,一个是中间结果放在内存中提升读写速度,一个是由有向无环图来规划计算任务。有别于Spark这种按批次处理数据的方式,流处理将数据源看作没有边界的数据流,由事件来触发数据处理任务,涉及的框架有Storm和Flink。Spark也推出了Spark Streaming,将RDD数据集抽象成若干小数据片,以批处理方式模拟流处理功能。

开发完成的大数据处理任务需要测试后才能上线使用,一种测试工具是Hi-Bench。大数据分析的输出有两种,一种是指标分析,一种是机器学习。指标往往是衡量业务顺利与否的标尺和发现业务中存在问题的线索,将指标可视化的手段有折线图、散点图、热力图、漏斗图、雷达图等。机器学习解决的问题不一而足,可能是图像识别,可能是内容推荐,包含的算法有PageRank,KNN-分类,TF-IDF,贝叶斯分类,Adaboost,K-Mean,神经网络等等。

用户头像

Nan Jiang

关注

还未添加个人签名 2019.04.26 加入

还未添加个人简介

评论

发布
暂无评论
架构师0期Week13总结