写点什么

week12 数据应用(一)

用户头像
杨斌
关注
发布于: 2021 年 02 月 02 日

作业一:

(至少完成一个)

  • 在你所在的公司(行业、领域),正在用大数据处理哪些业务?可以用大数据实现哪些价值?

金融行业,用大数据处理处理历史指标统计,数据挖掘,风控,实时指标统计等。

比如客户借款全链路分析场景,客户智能营销场景等。


  • 分析如下 HiveQL,生成的 MapReduce 执行程序,map 函数输入是什么?输出是什么,reduce 函数输入是什么?输出是什么?

INSERT OVERWRITE TABLE pv_usersSELECT pv.pageid, u.ageFROM page_view pv   JOIN user u   ON (pv.userid = u.userid);
复制代码


page_view 表和 user 表结构与数据示例如下



作业二:

  • 根据当周学习情况,完成一篇学习总结

作业提交链接

https://jinshuju.net/f/kiVzTR


第 12 周 数据应用(一)

12.1 大数据原理概述

大数据

狭义

广义

大数据技术的发展史

google(2004 年)三篇论文(三驾马车:GFS,分布式计算框架,NoSQL 数据库系统 BigTable)

Lucene 开源项目创始人(2006 年)Hadoop

Yahoo

2007 年百度、阿里巴巴 Hadoop

2008 年 Hadoop 正式成为 Apache 的顶级项目

同年,专门运行 Hadoop 的商业公司 Cloudera 成立

yahoo Pig ->SQL

Hive

MapReduce 既是执行引擎,又是资源调度框架。2012 年 Yarn 成为一个独立的项目开始运营

2012 年 Apark(大数据领域重要的分布式计算引擎)

(离线计算,实时计算)

NoSQL:HBase,Cassandra 等优秀的产品

 

大数据存储 HDFS,大数据计算,分析引擎+大数据挖掘和机器学习



大数据应用发展史

搜素引擎时代

数据仓库时代

数据挖掘时代

机器学习时代

大数据应用

医学影像智能识别

病例大数据智能诊疗

AI 外语老师

智能解题(神经网络技术)

舆情监控与分析

大数据风险控制(分控模型,借贷风险)

新零售(亚马逊 Go 无人店)

无人驾驶(机器学习,自动驾驶模型)

12.2 分布式文件系统

HDFS

常用 RAID 技术(RAID0,RAID1,RAID10,RAID5,RAID6)

HDFS 系统架构(NameNode,DataNode,Client)



HDFS 设计目标(超大文件,商用硬件上;流式访问)

不适合 HDFS 的场景(大量小文件,低延迟的数据访问,多用户随机写入修改文件)

设计目标(节点失效是常态)

文件(切分成块,默认 64M,副本 3)

分而治之

NameNode

DataNode

HDFS 关键运行机制--高可用

HDFS 如何写文件

HDFS 如何读文件

 

节点失效是常态

磁盘挂了怎么办

DataNode 服务器挂了怎么办

NameNode 挂了怎么办(操作日志,Fsimage)

Client 挂了怎么办?

hdfs 一致性模型,延时读可见

副本摆放策略

压缩

配置

数据块(默认 64M,通常 128M,hdfs-site.xml

NameNode 参数

DataNode 参数

Hadoop 文件系统

Java 接口

 

12.3 大数据计算框架 MapReduce--编程模型

MapReduce:大规模数据处理

海量数据(>1TB)

上百上万实现并行处理

简单实现以上目的:移动计算比移动数据更划算,分而治之

MapReduce 特性(分布式计算,容错,状态监控,模型抽象简介易用)

Map 和 reduce 两部分构成

WordCount 举例(词频统计)

map,reduce 输入和输出分别是什么?

适合 MapReduce 计算类型,不适合 MapReduce 计算类型(Fibonacci)

inputFormat

FileInputFormat

OutputFormat

Partationer

12.4 大数据计算框架 MapReduce--架构

主要调度方法

公平调度

JobTracker 内部实现

作业控制

资源管理

JobTracker 容错

Task 容错

Recored 容错

 

12.5 大数据集群资源管理系统 Yarn



yarn

资源管理器

调度管理器

应用管理器

节点管理器

 

12.6 大数据仓库 Hive

大数据三大部分:hdfs,mapReduce,yarn

hive

sql->MapReduce

hive>create table ...

hive>load data local inpath '' overwrite into table pokes;



Hive 编译器




有向无环图

shuffle sort


用户头像

杨斌

关注

还未添加个人签名 2020.03.17 加入

还未添加个人简介

评论

发布
暂无评论
week12 数据应用(一)