写点什么

架构师训练营第十三周总结

用户头像
张明森
关注
发布于: 2020 年 09 月 06 日

Spark

1.快:DAG切分的多阶段计算;内存存储;RDD编程模型

2.wordCount例子

3.RDD:编程模型、弹性分布式数据集

Spark针对数据进行编程;面向对象的大数据计算

RDD:转换函数(reduce、map、filter)、执行函数

数据分片的RDD:有shuffle会生成新的RDD(reduce、groupby)

窄依赖、宽依赖

4.DAG 有向无环图

流计算

Storm:





Spark Streaming

Flink

大数据可视化

常用指标:

新增用户数:日、周、月

用户留存率:留存用户数/当日新增用户数

用户流失率:1-用户留存率

活跃用户数:日/周/月

PV/UV

GMV

转化率:有购买的用户数/总访问用户数

数据挖掘与机器学习

1.网页排名算法 PageRank

1).确定页面等级值(rank值):A指向B,A给B投票;票数越多的页面优先级越高。

公式:

2.KNN分类算法

用来解决分类的问题;用距离来衡量样本之间的相似度

算法过程:

  1. 计算未知点到所有已知类别点的距离

  2. 按距离排序(升序)

  3. 选取其中前k个与未知点离得最近的点

  4. 统计k个点中各个类别的个数

  5. 上述k个点里类别出现频率最高的作为未知点的类别

3.贝叶斯分类算法



4.K-means聚类算法

算法过程:

  1. 随机选取k个点,作为聚类中心;

  2. 计算每个点分别到k个聚类中心的聚类,然后将该点分到最近的聚类中心,这样就行成了k个簇;

  3. 再重新计算每个簇的质心(均值);

  4. 重复以上2~4步,直到质心的位置不再发生变化或者达到设定的迭代次数。

机器学习系统架构

样本:包含:输入、结果

模型:映射 样本输入与样本输出的函数

算法:计算损失函数的最小值的过程

感知机->神经网络



用户头像

张明森

关注

还未添加个人签名 2017.10.16 加入

还未添加个人简介

评论

发布
暂无评论
架构师训练营第十三周总结