写点什么

第十三周 数据应用(二)总结

用户头像
钟杰
关注
发布于: 2020 年 12 月 20 日

Spark(计算引擎)

特点

DAG 切分的多阶段计算过程更快速

使用内存存储中间计算结果更高效

RDD 的编程模型更简单

RDD

RDD 是 Spark 的核心概念,是弹性分布式数据集(Resilient Distributed Datasets)的 缩写。RDD 既是 Spark 面向开发者的编程模型,又是 Spark 自身架构的核心元。

计算阶段

和 MapReduce 一个应用一次只运行一个 map 和一个 reduce 不同,Spark 可以根据 应用的复杂程度,分割成更多的计算阶段(stage),这些计算阶段组成一个有向无环图 DAG,Spark 任务调度器可以根据 DAG 的依赖关系执行计算阶段。

作业管理

Spark 里面的 RDD 函数有两种,一种是转换函数,调用以后得到的还是一个 RDD,RDD 的计算 逻辑主要通过转换函数完成。

另一种是 action 函数,调用以后不再返回 RDD。比如 count() 函数,返回 RDD 中数据的元素个 数;saveAsTextFile(path),将 RDD 数据存储到 path 路径下。Spark 的 DAGScheduler 在遇到 shuffle 的时候,会生成一个计算阶段,在遇到 action 函数的时候,会生成一个作业(job)。

RDD 里面的每个数据分片,Spark 都会创建一个计算任务去处理,所以一个计算阶段会包含很多 个计算任务(task)。

执行过程


生态体系


Flink、Storm、Spark Streaming(流式计算)

Strom

实时计算系统

  • 低延迟

  • 高性能

  • 分布式

  • 可伸缩

  • 高可用

Spark Streaming


Flink



HiBench(大数据基准测试工具)

Micro benchmarks

Sort(sort):使用 HadoopRandomTextWriter 生成数据,并对数据进行排序。

WordCount(wordcount):统计输入数据中每个单词的出现次数,输入数据使用 HadoopRandomTextWriter 生成。

TeraSort(terasort):这是由微软的数据库大牛 Jim Gray(2007 年失踪)创建的标准 benchmark,输入数据由 HadoopTeraGen 产生。

HDFS benchmarks

增强的 DFSIO(dfsioe):通过产生大量同时执行读写请求的任务来测试 Hadoop 集群 的 HDFS 吞吐量。

Web search benchmarks


Nutchindexing(nutchindexing):大规模搜索引擎索引是 MapReduce 的一个重要应 用,这个负载测试 Nutch(Apache 的一个开源搜索引擎)的索引子系统,使用自动生成 的 Web 数据,Web 数据中的链接和单词符合 Zipfian 分布。

PageRank(pagerank):这个负载包含一种在 Hadoop 上的 PageRank 算法实现,使 用自动生成的 Web 数据,Web 数据中的链接符合 Zipfian 分布。

Machine learning benchmarks

Mahout Bayesian classification(bayes):大规模机器学习也是 MapReduce 的一个重 要应用,这个负载测试 Mahout 0.7(Apache 的一个开源机器学习库)中的 Naive Bayesian 训练器,输入数据是自动生成的文档,文档中的单词符合 Zipfian 分布。

Mahout K-means clustering(kmeans):这个负载测试 Mahout 0.7 中的 K-means 聚 类算法,输入数据集由基于均匀分布和高斯分布的 GenKMeansDataset 产生。


Data analytics benchmarks

Hive Query Benchmarks(hivebench):这个负载的开发基于 SIGMOD 09 的一篇论 文“A Comparison of Approaches to Large-Scale Data Analysis”和 HIVE-396,包含 执行典型 OLAP 查询的 Hive 查询(Aggregation and Join),使用自动生成的 Web 数 据,Web 数据中的链接符合 Zipfian 分布。


大数据分析和可视化

数据大屏


互联网运营常用数据指标

新增用户数

新增用户数是网站增长性的关键指标,指新增加的访问网站的用户数(或者新下载 App 的 用户数)


用户留存率

新增的用户并不一定总是对网站(App)满意,在使用网站(App)后感到不满意,可能会 注销账户(卸载 App),这些辛苦获取来的用户就流失掉了。网站把经过一段时间依然没有 流失的用户称作留存用户,留存用户数比当期新增用户数就是用户留存率。

用户留存率= 留存用户数/ 当期新增用户数

活跃用户数

用户下载注册,但是很少打开产品,表示产品缺乏黏性和吸引力。活跃用户数表示打开使用 产品的用户数,根据统计口径不同,有日活跃用户数、月活跃用户数等

PV

打开产品就算活跃,打开以后是否频繁操作,就用 PV 这个指标衡量,用户每次点击,每个 页面跳转,被称为一个 PV(Page View)。

GMV

GMV 即成交总金额(Gross Merchandise Volume),是电商网站统计营业额(流水)、反 映网站营收能力的重要指标。和 GMV 配合使用的还有订单量(用户下单总量)、客单价 (单个订单的平均价格)等。

转化率

转化率是指在电商网站产生购买行为的用户与访问用户之比。


数据可视化图表与数据监控

折线图


散点图


热力图


漏斗图


常见的数据分析算法

网页排名算法 PageRank


PageRank,网页排名,又称网页级别,Google 左侧排名或佩奇排名,是一种由搜索引 擎根据网页之间相互的超链接计算的技術,而作为网页排名的要素之一。

分类和聚类算法

KMN 分类算法

数据距离算法

提取文本特征值 TF-IDF 算法

贝叶斯分类算法

K-means 聚类算法

推荐引擎算法

基于人口统计的推荐

基于商品属性的推荐

基于用户协同过滤的推荐

基于商品协同过滤的推荐

机器学习与神经网络算法

机器学习架构

神经网络


用户头像

钟杰

关注

还未添加个人签名 2019.02.12 加入

还未添加个人简介

评论

发布
暂无评论
第十三周 数据应用(二)总结