极客时间训练营 -12 周作业 2
本周主要学习了大数据的处理
大数据中“三驾马车”分布式文件系统GFS 大数据分布式计算框架MapReduce NoSQL数据库系统BigTable。
Hadoop主要包括分布式文件系统HDFS和大数据计算引擎MapReduce
Hive可以在Hadoop上执行sql 进行数据分析。
大数据目前应用在数据挖掘和机器学习上。
HDFS以流式数据访问模式存储超大文件,运行于商业硬件集群上。一次写入多次读取。不适合低延迟的数据访问和随机写入文件。一个文件进行多份存储,保证数据的高可用。
MapReduce处理海量数据,map进行单词分类,reduce进行单词加和。
评论 (1 条评论)