架构师训练营第十三周总结
Spark
1.快:DAG切分的多阶段计算;内存存储;RDD编程模型
2.wordCount例子
3.RDD:编程模型、弹性分布式数据集
Spark针对数据进行编程;面向对象的大数据计算
RDD:转换函数(reduce、map、filter)、执行函数
数据分片的RDD:有shuffle会生成新的RDD(reduce、groupby)
窄依赖、宽依赖
4.DAG 有向无环图
流计算
Storm:
Spark Streaming
Flink
大数据可视化
常用指标:
新增用户数:日、周、月
用户留存率:留存用户数/当日新增用户数
用户流失率:1-用户留存率
活跃用户数:日/周/月
PV/UV
GMV
转化率:有购买的用户数/总访问用户数
数据挖掘与机器学习
1.网页排名算法 PageRank
1).确定页面等级值(rank值):A指向B,A给B投票;票数越多的页面优先级越高。
公式:
2.KNN分类算法
用来解决分类的问题;用距离来衡量样本之间的相似度
算法过程:
计算未知点到所有已知类别点的距离
按距离排序(升序)
选取其中前k个与未知点离得最近的点
统计k个点中各个类别的个数
上述k个点里类别出现频率最高的作为未知点的类别
3.贝叶斯分类算法
4.K-means聚类算法
算法过程:
随机选取k个点,作为聚类中心;
计算每个点分别到k个聚类中心的聚类,然后将该点分到最近的聚类中心,这样就行成了k个簇;
再重新计算每个簇的质心(均值);
重复以上2~4步,直到质心的位置不再发生变化或者达到设定的迭代次数。
机器学习系统架构
样本:包含:输入、结果
模型:映射 样本输入与样本输出的函数
算法:计算损失函数的最小值的过程
感知机->神经网络
评论