第十三周总结

用户头像
fmouse
关注
发布于: 2020 年 12 月 20 日

首先讲解了大数据引擎 Spark。使用 DAG 将计算过程切分多个阶段并行计算更快速,使用内存存储中间计算结果更高效,还有 RDD 编程模型。



然后分别介绍了 Flink、Storm、Spark Streaming 流处理计算。



接下来是大数据测试工具 HiBench 以及大数据分析指标与可视化。



然后是大数据相关算法。PageRank 网页排名算法,KNN 分类算法,欧式距离和余弦相似度,提取文本特征的 TF-IDF 算法,贝叶斯算法,K-means 聚类算法。推荐算法思想都是通过找同类推荐。



最后是机器学习,感觉算法模型挺重要的。有了算法模型,通过样本调整参数,减小损失函数,减小结构风险。



用户头像

fmouse

关注

还未添加个人签名 2018.08.07 加入

还未添加个人简介

评论

发布
暂无评论
第十三周总结