架构师训练营 - 学习总结 - 第十三讲
Spark
spark在内存中运算,速度比Hadoop快很多。
DAG和RDD比MapReduce更灵活和简单。
RDD:弹性分布式数据集
编程模型,核心元素
MapReduce是面向过程的,RDD是对象。
RDD函数分为两种
转换函数(transformation),返回值还是RDD。
执行函数(action)
DAG:作业调度的核心,整个应用被切分成哪些阶段,每个阶段之间的依赖关系。
流计算
SparkStream,Flink
HiBench模拟测试大数据平台
大数据可视化
数据大屏:对关键指标统计分析,以可视化放到一个屏幕上。
常用运营数据指标:
新增用户数(自定义),用户留存率,活跃用户数,PV(Page View),
GMV(成交总金额Gross Merchandise Volume),转化率
大数据算法与机器学习
网页排名算法PageRank:根据页面被其他页面指向计算
稀疏矩阵如何标识?思考
KNN分类算法:进行分类用,将一个需要分类的数据和一组已经分类标注好的样本集合进行比较,得到距离最近的K个样本,K个样本最多归属的类别,就是这个数据的类别。
数据的距离的算法:欧氏距离计算公式,余弦相似度计算公式。
提取文本特征值TF-IDF算法:
TF是词频,表示某个单词在文档中出现的频率。TF=某个词在文档中出现的次数/文档总词数
IDF是逆文档频率,表示这个单词在所有文档中的稀缺程度。IDF=log(所有的文档总数/出现该词的文档数)
TF-IDF=TF * IDF
K-means聚类算法:
1,随机在图中取K个种子点
2,求所有点到K个种子点的距离,假如一个点离种子点X最近,那么这个点属于X点群。
3,对已经分好组的数据,分别求其中心点。
4,重复第2步和第3步,直到每个分组的中心点不再移动。这时距每个中心点最近的点数据为同一组数据。
推荐引擎算法:基于人口统计的推荐,基于商品属性的推荐,基于用户的协同过滤推荐,基于商品的协同过滤推荐
机器学习:
样本数据:通常所说的训练数据,包括输入和结果两部分。
模型:映射样本输入与结果的函数。
算法:从模型的假设空间中寻找一个最优的函数,使得样本空间的输入X经过改函数的映射得到的f(X),和真是的Y值之间的距离最小。这个最优函数通常没办法直接计算得到,即没有解析解,需要用数值计算的方法不断迭代求解。如何寻找到f函数的全局最优解,以及使寻找过程尽量高效,就构成了机器学习的算法。
损失函数:评估模型是否最接近最优解,计算模型预测值与真实值的差距。0-1损失函数、平方损失函数、绝对损失函数、对数损失函数等。
经验风险:模型f(X)相对于真实值的平均损失,每个样本的损失函数的求和平均值。
过拟合:相对样本空间的可能取值范围,实际中使用的样本量总是有限的,可能会出现使样本经验风险最小的模型f函数并不能使实际预测值的损失函数最小。
结构风险:为防止过拟合引入,模型越复杂J(f)越大。
机器学习的数学原理:计算每个参数的一阶导数为零的偏微分方程组。
感知机:输出空间{-1,+1}
神经网络:由感知机作为神经元组成
评论