week12 数据应用(一)
作业一:
(至少完成一个)
在你所在的公司(行业、领域),正在用大数据处理哪些业务?可以用大数据实现哪些价值?
金融行业,用大数据处理处理历史指标统计,数据挖掘,风控,实时指标统计等。
比如客户借款全链路分析场景,客户智能营销场景等。
分析如下 HiveQL,生成的 MapReduce 执行程序,map 函数输入是什么?输出是什么,reduce 函数输入是什么?输出是什么?
page_view 表和 user 表结构与数据示例如下
作业二:
根据当周学习情况,完成一篇学习总结
作业提交链接
第 12 周 数据应用(一)
12.1 大数据原理概述
大数据
狭义
广义
大数据技术的发展史
google(2004 年)三篇论文(三驾马车:GFS,分布式计算框架,NoSQL 数据库系统 BigTable)
Lucene 开源项目创始人(2006 年)Hadoop
Yahoo
2007 年百度、阿里巴巴 Hadoop
2008 年 Hadoop 正式成为 Apache 的顶级项目
同年,专门运行 Hadoop 的商业公司 Cloudera 成立
yahoo Pig ->SQL
Hive
MapReduce 既是执行引擎,又是资源调度框架。2012 年 Yarn 成为一个独立的项目开始运营
2012 年 Apark(大数据领域重要的分布式计算引擎)
(离线计算,实时计算)
NoSQL:HBase,Cassandra 等优秀的产品
大数据存储 HDFS,大数据计算,分析引擎+大数据挖掘和机器学习
大数据应用发展史
搜素引擎时代
数据仓库时代
数据挖掘时代
机器学习时代
大数据应用
医学影像智能识别
病例大数据智能诊疗
AI 外语老师
智能解题(神经网络技术)
舆情监控与分析
大数据风险控制(分控模型,借贷风险)
新零售(亚马逊 Go 无人店)
无人驾驶(机器学习,自动驾驶模型)
12.2 分布式文件系统
HDFS
常用 RAID 技术(RAID0,RAID1,RAID10,RAID5,RAID6)
HDFS 系统架构(NameNode,DataNode,Client)
HDFS 设计目标(超大文件,商用硬件上;流式访问)
不适合 HDFS 的场景(大量小文件,低延迟的数据访问,多用户随机写入修改文件)
设计目标(节点失效是常态)
文件(切分成块,默认 64M,副本 3)
分而治之
NameNode
DataNode
HDFS 关键运行机制--高可用
HDFS 如何写文件
HDFS 如何读文件
节点失效是常态
磁盘挂了怎么办
DataNode 服务器挂了怎么办
NameNode 挂了怎么办(操作日志,Fsimage)
Client 挂了怎么办?
hdfs 一致性模型,延时读可见
副本摆放策略
压缩
配置
数据块(默认 64M,通常 128M,hdfs-site.xml
NameNode 参数
DataNode 参数
Hadoop 文件系统
Java 接口
12.3 大数据计算框架 MapReduce--编程模型
MapReduce:大规模数据处理
海量数据(>1TB)
上百上万实现并行处理
简单实现以上目的:移动计算比移动数据更划算,分而治之
MapReduce 特性(分布式计算,容错,状态监控,模型抽象简介易用)
Map 和 reduce 两部分构成
WordCount 举例(词频统计)
map,reduce 输入和输出分别是什么?
适合 MapReduce 计算类型,不适合 MapReduce 计算类型(Fibonacci)
inputFormat
FileInputFormat
OutputFormat
Partationer
12.4 大数据计算框架 MapReduce--架构
主要调度方法
公平调度
JobTracker 内部实现
作业控制
资源管理
JobTracker 容错
Task 容错
Recored 容错
12.5 大数据集群资源管理系统 Yarn
yarn
资源管理器
调度管理器
应用管理器
节点管理器
12.6 大数据仓库 Hive
大数据三大部分:hdfs,mapReduce,yarn
hive
sql->MapReduce
hive>create table ...
hive>load data local inpath '' overwrite into table pokes;
Hive 编译器
有向无环图
shuffle sort
评论