写点什么

hadoop

1 人感兴趣 · 107 次引用

  • 最新
  • 推荐
https://static001.geekbang.org/infoq/ac/ac445060a2e8afca23098abae5a81826.png?x-oss-process=image/resize,w_416,h_234

爱奇艺 M2VOC 挑战赛落幕,6 篇论文被 ICASSP2021 收录

本次挑战赛共收录18篇相关论文,其中,6篇论文被ICASSP2021收录。

https://static001.geekbang.org/infoq/72/72199d6219fd0a5e87e9b924ab8a2d7e.jpeg?x-oss-process=image/resize,w_416,h_234

Hadoop Committer 如何炼成?爱奇艺新晋核心贡献人给出了这份攻略!

近日,全球最大的开源基金会Apache基金会的大数据开源社区Hadoop公布了最新一批Committer(核心贡献人),爱奇艺大数据团队的朱琦同学接受Apache社区邀请,正式成为了Hadoop Committer的一员。

Hadoop 实战篇(1)

用户头像
进击的梦清6 月 5 日

在前面介绍过了Hadoop-离线批处理技术的整体架构,接下来便开始学习安装配置并使用 Hadoop ; 将从以下几点介绍: Linux 环境的配置与安装 Hadoop、Hadoop 的三种安装模式介绍、本地模式安装和伪集群模式安装

https://static001.geekbang.org/infoq/98/98a572b4e03be9eeb015a554b16d6177.jpeg?x-oss-process=image/resize,w_416,h_234

如何提升 Hadoop 访问对象存储 US3 的效率?我们做了这些技术实践

用户头像
UCloud技术5 月 22 日

​在信息爆炸的大数据时代,如何以更低成本来解决海量数据的存储问题,已成为企业大数据业务中的重要一环。UCloud自研的新一代对象存储服务US3,在过去一段时间,针对大数据业务场景推出了计算存储分离和大数据备份解决方案。

https://static001.geekbang.org/infoq/e6/e60da082fff1c850dbfaff1a3d78933e.png?x-oss-process=image/resize,w_416,h_234

Hadoop 定位问题日志跟踪

用户头像
InfoQ_Springup5 月 21 日

进去需要在Hadoop集群上进行写磁盘的策略,由于hadoop两块数据磁盘大小不一致,导致运行时小盘容易被写满,导致yarn异常,为此需要修改磁盘策略为选择策略,想通过修改原始的RoundRobinVolumeChoosingPolicy策略为AvailableSpaceVolumeChoosingPolicy策略修改

https://static001.geekbang.org/infoq/37/37ab97d574fb5044194a1d5c87093b2b.png?x-oss-process=image/resize,w_416,h_234

UCloud 一站式智能大数据平台 USDP 免费版正式发布!

用户头像
UCloud技术5 月 19 日

近日UCloud全新发布了针对私有化部署场景下的一站式智能大数据平台USDP免费版。免费版USDP支持HDFS、Kudu、ES全生态,助力企业提升大数据开发、运维效率,快速构建大数据业务的分析处理能力。

https://static001.geekbang.org/infoq/98/98d67baf1eeda5386465430b7a15f3a7.png?x-oss-process=image/resize,w_416,h_234

HIVE 跑个 insert into select xxx 为什么 CPU 飙高

用户头像
InfoQ_Springup5 月 19 日

HIVE跑个insert into select xxx 为什么CPU飙高

https://static001.geekbang.org/infoq/45/45f1791ec1c65c954e29edb86f293559.jpeg?x-oss-process=image/resize,w_416,h_234

现在后端都在用什么数据库存储数据?

用户头像
读字节5 月 18 日

那我就根据这两三年的研究与工作经历,说说如今的情况。 1.Oracle:传统行业,尤其是政府,医疗,学校和大企业,基本上还是Oracle应用最广,其次就是DB2。反而是WebLogic和WebSphere这些中间件基本上随着经典javaee的没落,已经逐步退出历史舞台,

https://static001.geekbang.org/infoq/29/2942095ecc9aefda5e10f385e171ddcd.jpeg?x-oss-process=image/resize,w_416,h_234

精选 Hadoop 高频面试题 17 道,附答案详细解析

hadoop中常问的就三块,第一:分布式存储(HDFS);第二:分布式计算框架(MapReduce);第三:资源调度框架(YARN)。

https://static001.geekbang.org/infoq/29/2942095ecc9aefda5e10f385e171ddcd.jpeg?x-oss-process=image/resize,w_416,h_234

MapReduce 排序以及序列化

序列化(Serialization)是指把结构化对象转化为字节流。

https://static001.geekbang.org/infoq/29/2942095ecc9aefda5e10f385e171ddcd.jpeg?x-oss-process=image/resize,w_416,h_234

Yarn 的架构和原理

YARN的基本设计思想是将MapReduce V1中的JobTracker拆分为两个独立的服务:ResourceManager和ApplicationMaster。ResourceManager负责整个系统的资源管理和分配,ApplicationMaster负责单个应用程序的的管理。

hadoop 1.0 和 hadoop 2.0 的区别

        Hadoop1.0即第一代Hadoop,由分布式存储系统HDFS和分布式计算框架MapReduce组成,其中HDFS由一个NameNode和多个DateNode组成,MapReduce由一个JobTracker和多个TaskTracker组成。

HDFS 文件限额配置

在多人共用HDFS的环境下,配置设置非常重要。特别是在Hadoop处理大量资料的环境,如果没有配额管理,很容易把所有的空间用完造成别人无法存取。Hdfs的配额设定是针对目录而不是针对账号,可以 让每个账号仅操作某一个目录,然后对目录设置配置。

https://static001.geekbang.org/infoq/1b/1b1aff4cf46868566f64473d9ae3ce1a.png?x-oss-process=image/resize,w_416,h_234

HDFS/HBase 技术报告·分布式数据库设计架构的深度解析

用户头像
读字节4 月 27 日

从广义的理解,分库分表的传统关系型数据库,传统关系型数据库集群,关系型数据库的主从架构,分布式KV数据库(例如:HBase),分布式文档数据库(例如:MongoDB),分布式关系数据库(例如:TiDB)等,统称为分布式数据库。

https://static001.geekbang.org/infoq/29/2965c741e35d351c1364e26f1cd5b60a.png?x-oss-process=image/resize,w_416,h_234

yarn 集群的架构和工作原理

YARN的基本设计思想是将MapReduce V1中的JobTracker拆分为两个独立的服务:ResourceManager和ApplicationMaster。ResourceManager负责整个系统的资源管理和分配,ApplicationMaster负责单个应用程序的的管理。

Hadoop- 离线批处理技术

用户头像
进击的梦清4 月 21 日

Apache Hadoop软件库是一个框架,该框架允许使用简单的编程模型跨计算机集群对大型数据集进行分布式处理。它旨在从单个服务器扩展到数千台机器,每台机器都提供本地计算和存储。

https://static001.geekbang.org/infoq/29/2942095ecc9aefda5e10f385e171ddcd.jpeg?x-oss-process=image/resize,w_416,h_234

HDFS 的动态扩容及动态缩容

​ 随着公司业务的增长,数据量越来越大,原有的datanode节点的容量已经不能满足存储数据的需求,需要在原有集群基础上动态添加新的数据节点。也就是俗称的动态扩容。

https://static001.geekbang.org/infoq/29/2942095ecc9aefda5e10f385e171ddcd.jpeg?x-oss-process=image/resize,w_416,h_234

HDFS 的垃圾桶机制

每一个文件系统都会有垃圾桶机制,便于我们将删除的数据回收到垃圾桶里面去,避免垃圾桶,避免我们某些误操作错误的删除一些重要文件,回收到垃圾桶里里面的资料数据,都可以进行恢复

https://static001.geekbang.org/infoq/29/2942095ecc9aefda5e10f385e171ddcd.jpeg?x-oss-process=image/resize,w_416,h_234

Hadoop 的发展及其架构

      Hadoop最早起源于Nutch。Nutch的设计目标是构建一个大型的全网搜索引擎,包括网页抓取、索引、查询等功能,但随着抓取网页数量的增加,遇到了严重的可扩展性问题——如何解决数十亿网页的存储和索引问题。

https://static001.geekbang.org/infoq/bf/bf2e3b5e4eafb4d4d07596a12c8a7036.jpeg?x-oss-process=image/resize,w_416,h_234

100 万级车辆数据监控的 hadoop 大数据架构探索与实践

用户头像
黑马腾云4 月 11 日

作者有幸在前些年主导并尝试使用hadoop大数据生态技术对传统车联网项目进行改造,取得了一些成果。本文对该项目进行复盘,聊聊大数据架构在车联网行业中的实践。

https://static001.geekbang.org/infoq/2a/2a98a65f312bcc5cecea52488077ad4a.jpeg?x-oss-process=image/resize,w_416,h_234

MapReduce 优化

//以下参数是在用户自己的MapReduce应用程序中配置就可以生效

https://static001.geekbang.org/infoq/6e/6e8380454de5fbb178ef8212d99cd54d.jpeg?x-oss-process=image/resize,w_416,h_234

HDFS 的 block 块和副本机制

hdfs将所有的文件全部抽象成为block块来进行存储,不管文件大小,全部一视同仁都是以block块的统一大小和形式进行存储,方便我们的分布式文件系统对文件的管理

https://static001.geekbang.org/infoq/88/882aded58ff48e1528f1f53d51831751.jpeg?x-oss-process=image/resize,w_416,h_234

Hadoop 3.x 版本相对于 Hadoop 2.x 的新特性

Apache Hadoop 3.0.0在以前的主要发行版本(hadoop-2.x)上进行了许多重大改进。

跟我学丨如何用鲲鹏服务器搭建 Hadoop 全分布式集群

摘要:今天教大家如何利用鲲鹏服务器搭建Hadoop全分布式集群,动起来···

https://static001.geekbang.org/infoq/cd/cde68a4ae8066020cd531f8ae2047b3b.jpeg?x-oss-process=image/resize,w_416,h_234

MapReduce 的运行机制详解

整个Map阶段流程大体如上图所示。

https://static001.geekbang.org/infoq/89/8975485cc2a68e227c5c1135f4674c83.png?x-oss-process=image/resize,w_416,h_234

MapReduce 中 shuffle 阶段的数据压缩机制

在shuffle阶段,可以看到数据通过大量的拷贝,从map阶段输出的数据,都要通过网络拷贝,发送到reduce阶段,这一过程中,涉及到大量的网络IO,如果数据能够进行压缩,那么数据的发送量就会少得多,那么如何了解hadoop当中支持文件的那些压缩算法, 已经如何配置

https://static001.geekbang.org/infoq/db/db32c73e38c6f291ce88d1b834c20a35.jpeg?x-oss-process=image/resize,w_416,h_234

Hadoop 之 YARN 的内部机制

用户头像
hanke3 月 15 日

前面两篇文章,我们介绍了Hadoop里两个重要的组件MapReduce和HDFS。本文我们一起看一下,作为大数据业内用的比较普遍的YARN的内部机制。

https://static001.geekbang.org/infoq/88/882aded58ff48e1528f1f53d51831751.jpeg?x-oss-process=image/resize,w_416,h_234

使用 Hadoop 相关框架进行网站流量日志分析

网站分析整体来说是一个内涵非常丰富的体系,整体过程是一个金字塔结构:

hadoop_hadoop资料文章-InfoQ写作平台