写点什么

架构师训练营 - 学习总结 - 第十三讲

用户头像
吕浩
关注
发布于: 2020 年 09 月 09 日

Spark

spark在内存中运算,速度比Hadoop快很多。

DAG和RDD比MapReduce更灵活和简单。



RDD:弹性分布式数据集

编程模型,核心元素

MapReduce是面向过程的,RDD是对象。



RDD函数分为两种

转换函数(transformation),返回值还是RDD。

执行函数(action)



DAG:作业调度的核心,整个应用被切分成哪些阶段,每个阶段之间的依赖关系。



流计算

SparkStream,Flink

HiBench模拟测试大数据平台



大数据可视化

数据大屏:对关键指标统计分析,以可视化放到一个屏幕上。

常用运营数据指标:

新增用户数(自定义),用户留存率,活跃用户数,PV(Page View),

GMV(成交总金额Gross Merchandise Volume),转化率



大数据算法与机器学习

网页排名算法PageRank:根据页面被其他页面指向计算

稀疏矩阵如何标识?思考

KNN分类算法:进行分类用,将一个需要分类的数据和一组已经分类标注好的样本集合进行比较,得到距离最近的K个样本,K个样本最多归属的类别,就是这个数据的类别。

数据的距离的算法:欧氏距离计算公式,余弦相似度计算公式。

提取文本特征值TF-IDF算法:

TF是词频,表示某个单词在文档中出现的频率。TF=某个词在文档中出现的次数/文档总词数

IDF是逆文档频率,表示这个单词在所有文档中的稀缺程度。IDF=log(所有的文档总数/出现该词的文档数)

TF-IDF=TF * IDF



K-means聚类算法:

1,随机在图中取K个种子点

2,求所有点到K个种子点的距离,假如一个点离种子点X最近,那么这个点属于X点群。

3,对已经分好组的数据,分别求其中心点。

4,重复第2步和第3步,直到每个分组的中心点不再移动。这时距每个中心点最近的点数据为同一组数据。



推荐引擎算法:基于人口统计的推荐,基于商品属性的推荐,基于用户的协同过滤推荐,基于商品的协同过滤推荐



机器学习:

样本数据:通常所说的训练数据,包括输入和结果两部分。

模型:映射样本输入与结果的函数。

算法:从模型的假设空间中寻找一个最优的函数,使得样本空间的输入X经过改函数的映射得到的f(X),和真是的Y值之间的距离最小。这个最优函数通常没办法直接计算得到,即没有解析解,需要用数值计算的方法不断迭代求解。如何寻找到f函数的全局最优解,以及使寻找过程尽量高效,就构成了机器学习的算法。

损失函数:评估模型是否最接近最优解,计算模型预测值与真实值的差距。0-1损失函数、平方损失函数、绝对损失函数、对数损失函数等。

经验风险:模型f(X)相对于真实值的平均损失,每个样本的损失函数的求和平均值。

过拟合:相对样本空间的可能取值范围,实际中使用的样本量总是有限的,可能会出现使样本经验风险最小的模型f函数并不能使实际预测值的损失函数最小。

结构风险:为防止过拟合引入,模型越复杂J(f)越大。

机器学习的数学原理:计算每个参数的一阶导数为零的偏微分方程组。



感知机:输出空间{-1,+1}

神经网络:由感知机作为神经元组成



用户头像

吕浩

关注

还未添加个人签名 2018.04.27 加入

还未添加个人简介

评论

发布
暂无评论
架构师训练营 - 学习总结 - 第十三讲