写点什么

week13 数据应用(二)

用户头像
杨斌
关注
发布于: 2021 年 02 月 02 日

作业一:

(至少完成一个)

  • 你所在的行业,常用的数据分析指标有哪些?请简述。


注册

注册客户数

实名

客户数

授信

授信客户数

授信额度

抵质押

借款

放款金额

借款笔数

还款

收回本金金额


  • Google 搜索引擎是如何对搜索结果进行排序的?(请用自己的语言描述 PageRank 算法。)

作业二:

  • 根据当周学习情况,完成一篇学习总结

作业提交链接

https://jinshuju.net/f/gG7hQ9


第 13 周数据应用(二)

13.1 大数据计算引擎 Spark(上)

Spark VS Hadoop 

Spark 性能是 Hadoop 的 100 倍以上

Spark 特点

DAG 切分的多阶段计算过程更快捷

使用内存存储中间计算结果更高效

RDD 的编程模型更简单

Spark WordCount 编程示例

Spark 优化了过程,并没有改变大数据计算的本质

作为编程模型的 RDD(弹性数据分布集)

面向对象???

RDD 上定义的函数:转换函数(宽依赖,窄依赖),执行函数

 

13.2 大数据计算引擎 Spark(下)

Spark 的计算阶段

13.3 流处理计算 Flink、Storm、SparkStreaming

Storm 实时的 Hadoop

实时计算系统

低延迟

高性能

分布式

可伸缩

高可用

Storm 的基本概念



  • Nimbus:负责资源分配和任务调度。

  • Supervisor:负责接受 Nimbus 分配的任务,启动和停止属于自己管理的 Worker 进程。 

  • Worker:运行具体处理组件逻辑的进程。

  • Task:Worker 中每一个 Spout/Bolt 的线程称为一个 Task。




Spark Streaming



Flink

Flink 流处理计算

Flink 批处理计算

 

13.4 大数据基准测试工具 HiBench

13.5 大数据分析与可视化

数据大屏

 

指标:

新增用户数(日,周,月,季,年)

用户留存率(1-用户流失率) (3 日,5 日,7 日)

活跃用户数(日,月)

PV(Page View)

GNV(成交总金额)(订单量,客单价)

转换率(有购买行为的用户/访问的用户*100%)

 

数据可视化图标与数据监控

折线图

散点图

热力图

漏斗图

 

利用大数据分析发现运营异常的案例分析

网站的新增用户减少,咨询客户没有触达。原来是更新了 SDK 版本导致 bug 引起。

 

13.6 网页排名算法 PageRank

投票

PageRank 值

google 搜素引擎

矩阵如何表示(三元矩阵)

 

13.7 分类和聚类算法

KNN 分类算法(K 近邻算法)

数据的距离算法:向量

欧氏距离

余弦相似

提取文章特征值 TF-IDF 算法(TF-词频,IDF-逆文档频率)

贝叶斯分类算法(贝叶斯公式)

 

模型训练->样本分类

K-means 聚类算法

 

13.8 推荐引擎算法

基于人口统计的推荐算法

基于商品属性的推荐

基于用户的协同过滤推荐

基于商品的协同过滤推荐

13.9 机器学习和神经网络算法

机器学习系统架构

样本数据-学习算法-模型-预测系统

预测数据->预测系统->预测结果

样本(训练数据)

模型(函数)--迭代计算,算出参数值,损失函数(平方损失,绝对损失,对数损失)

算出损失函数的最小值

模型的复杂度,经验模型

 

机器学习的数学原理

 

感知机(梯度下降法)

神经网络

神经网络在手写数字识别中的应用(示例)

图片,像素点,是否有手写痕迹,0|1,[0..9]

感知机的模型,数量,层数

机器学习-调参

神经网络与围棋 AI


用户头像

杨斌

关注

还未添加个人签名 2020.03.17 加入

还未添加个人简介

评论

发布
暂无评论
week13 数据应用(二)