week13 数据应用(二)
作业一:
(至少完成一个)
你所在的行业,常用的数据分析指标有哪些?请简述。
注册
注册客户数
实名
客户数
授信
授信客户数
授信额度
抵质押
借款
放款金额
借款笔数
还款
收回本金金额
Google 搜索引擎是如何对搜索结果进行排序的?(请用自己的语言描述 PageRank 算法。)
作业二:
根据当周学习情况,完成一篇学习总结
作业提交链接
第 13 周数据应用(二)
13.1 大数据计算引擎 Spark(上)
Spark VS Hadoop
Spark 性能是 Hadoop 的 100 倍以上
Spark 特点
DAG 切分的多阶段计算过程更快捷
使用内存存储中间计算结果更高效
RDD 的编程模型更简单
Spark WordCount 编程示例
Spark 优化了过程,并没有改变大数据计算的本质
作为编程模型的 RDD(弹性数据分布集)
面向对象???
RDD 上定义的函数:转换函数(宽依赖,窄依赖),执行函数
13.2 大数据计算引擎 Spark(下)
Spark 的计算阶段
13.3 流处理计算 Flink、Storm、SparkStreaming
Storm 实时的 Hadoop
实时计算系统
低延迟
高性能
分布式
可伸缩
高可用
Storm 的基本概念
Nimbus:负责资源分配和任务调度。
Supervisor:负责接受 Nimbus 分配的任务,启动和停止属于自己管理的 Worker 进程。
Worker:运行具体处理组件逻辑的进程。
Task:Worker 中每一个 Spout/Bolt 的线程称为一个 Task。
Spark Streaming
Flink
Flink 流处理计算
Flink 批处理计算
13.4 大数据基准测试工具 HiBench
13.5 大数据分析与可视化
数据大屏
指标:
新增用户数(日,周,月,季,年)
用户留存率(1-用户流失率) (3 日,5 日,7 日)
活跃用户数(日,月)
PV(Page View)
GNV(成交总金额)(订单量,客单价)
转换率(有购买行为的用户/访问的用户*100%)
数据可视化图标与数据监控
折线图
散点图
热力图
漏斗图
利用大数据分析发现运营异常的案例分析
网站的新增用户减少,咨询客户没有触达。原来是更新了 SDK 版本导致 bug 引起。
13.6 网页排名算法 PageRank
投票
PageRank 值
google 搜素引擎
矩阵如何表示(三元矩阵)
13.7 分类和聚类算法
KNN 分类算法(K 近邻算法)
数据的距离算法:向量
欧氏距离
余弦相似
提取文章特征值 TF-IDF 算法(TF-词频,IDF-逆文档频率)
贝叶斯分类算法(贝叶斯公式)
模型训练->样本分类
K-means 聚类算法
13.8 推荐引擎算法
基于人口统计的推荐算法
基于商品属性的推荐
基于用户的协同过滤推荐
基于商品的协同过滤推荐
13.9 机器学习和神经网络算法
机器学习系统架构
样本数据-学习算法-模型-预测系统
预测数据->预测系统->预测结果
样本(训练数据)
模型(函数)--迭代计算,算出参数值,损失函数(平方损失,绝对损失,对数损失)
算出损失函数的最小值
模型的复杂度,经验模型
机器学习的数学原理
感知机(梯度下降法)
神经网络
神经网络在手写数字识别中的应用(示例)
图片,像素点,是否有手写痕迹,0|1,[0..9]
感知机的模型,数量,层数
机器学习-调参
神经网络与围棋 AI
评论