写点什么

第十二周 - 学习总结

用户头像
molly
关注
发布于: 2020 年 09 月 02 日

大数据概述

大数据究竟是什么?

做应用系统前都是有需求及功能目标的,根据这个需求开发出软件来供用户来使用。而大数据是反过来的,大数据并不是说你有什么功能去给用户去使用,而是要想、要猜用户需要什么,然后给他提供服务和功能。



大数据包含了哪些东西?

今天常说的大数据技术,也就是我们经常听到的大数据“三驾马车”,分别是:

  • 一个文件系统

  • 一个计算框架

  • 一个数据库系统



用大数据解决什么问题?

大数据离线计算

一般来说,像MapReduce、Spark这类计算框架处理业务场景都被称作批处理计算,因为它们通常针对以“天”为单位产生的数据进行一次计算,然后得到需要的结果,这中间计算需要花费的时间大概是几十分钟甚至更长的时间。因为计算的数据是非在线得到的实时数据,而是历史数据,所以这类计算也被称为大数据离线计算。



大数据实时计算

还有另一类应用场景,它们需要对实时产生的大量数据进行即时计算,比如对于遍布城市监控摄像头进行人脸识别和嫌犯追踪。这类计算称为大数据流计算,相应地,有 Storm、Flink、Spark Streaming 等流计算框架来满足此类大数据应用的场景。流式计算要处理的数据是实时在线产生的数据,所以这类计算也被称为大数据实时计算。



NoSQL

NoSQL 系统处理的主要也是大规模海量数据的存储与访问,所以也被归为大数据技术。

如:HBase、Cassandra等许多优秀的产品,其中 HBase 是从 Hadoop中分离出来的、基于 HDFS 的 NoSQL系统。



大数据处理的主要应用场景包括数据分析、数据挖掘与机器学习。

  • 数据分析主要使用:Hive、Spark SQL 等 SQL 引擎完成;

  • 数据挖掘与机器学习则有专门的机器学习框架 TensorFlow、Mahout 以及 MLib等,内置了主要的机器学习和数据挖掘算法。





用户头像

molly

关注

还未添加个人签名 2017.12.14 加入

还未添加个人简介

评论

发布
暂无评论
第十二周 - 学习总结