hadoop
1 人感兴趣 · 211 次引用
- 最新
- 推荐
Hadoop RPC 简介
RPC(Remote Procedure Call)远程过程调用协议,一种通过网络从远程计算机上请求服务,而不需要了解底层网络技术的协议。RPC它假定某些协议的存在,例如TPC/UDP等,为通信程序之间携带信息数据。在OSI网络七层模型中,RPC跨越了传输层和应用层,RPC使得开发
Hadoop 集群间同步数据的最佳实践
1. Hadoop 集群间如何同步数据? 2. Hadoop 集群间单方开启 Kerberos 认证如何同步数据? 3. Hadoop 集群间均开启 Kerberos 认证如何同步数据?
hive 数据迁移
Distcp是hadoop内部自带的一个程序,用于hdfs之间的数据拷贝。Distcp是作为一个 MapReduce作业来实现的,该复制作业是通过集群中并行运行的 map来完成。
windows 下 Hive 搭建踩坑汇总
Hive是一个基于Hadoop的数据仓库工具,以一种类SQL的HQL语句操作Hadoop数据仓库(HDFS等)。所以本地windows安装前需要先搭建Hadoop。前面文章已经大概介绍了环境搭建和踩坑汇总,所以这里也依旧只是介绍基础的安装方法。因为关于Hive的安装,网上其实有
Windows 下 hadoop 环境搭建之 NameNode 启动报错
因为平时工作和日常接触到的大都是的中型项目,所以少有个性化推荐等涉及大数据的功能。但是后期应该也会在自己项目中添加信息推荐模块,所以就开始关注spark,hadoop,Thrift等工具,以下就以hadoop先开始,包括环境搭建和配置过程中踩坑过程。
袋鼠云产品功能更新报告 05 期|应有尽“优”,数栈一大波功能优化升级!
袋鼠云产品功能更新报告05期来啦!这段时间,我们对产品本身以及客户反馈的一些问题进行了持续的更新和优化,包括对离线平台数据同步功能的更新,数据资产平台血缘问题的优化等,欢迎点进正文查看数栈产品的最新功能。
膜拜!华为内部都在强推的 783 页大数据处理系统:Hadoop 源代码
大数据处理系统:Hadoop源代码情景分析,采用的是Hadoop2.6。如果你有点野心,想对大数据处理系统有比较深入透彻的了解,特别是想有朝一日自己也设计一个这样的系统,甚至自己把它写出来,那么你真应该认真读一下这本文,以及 Hadoop的源代码,看看人家是怎么设计怎
etl 增量对比解决方案 etl-engine 如何实现增量对比抽取
增量对比解决方案 etl 增量对比抽取数据 etl-engine
深入理解 Taier:MR on Yarn 的实现原理
我们今天常说的大数据技术,它的理论基础来自于2003年 Google 发表的三篇论文,《The Google File System》、《MapReduce: Simplified Data Processing on Large Clusters》、《Bigtable: A Distributed Storage System for Structured Data》。这三篇论文分
hive etl 通过 ETL 导出 Hive 中的数据
Hive 数据如何导出到关系型数据库中,ETL 导出 Hive 数据
云原生 + AI 时代已至,大数据底座何去何从?
大家都知道,对于很多架构师而言,做技术选型是一件“常态化工作”。要找准一项技术是否适合某个场景,最核心的是要看这项技术当初是因为什么而诞生的,这个最初始的需求往往就是这项技术的基因。
Hadoop 及 Spark 分布式 HA 运行环境搭建
工欲善其事必先利其器,在深入学习大数据相关技术之前,先手动从0到1搭建一个属于自己的本地Hadoop和Spark运行环境,对于继续研究大数据生态圈各类技术具有重要意义。本文旨在站在研发的角度上通过手动实践搭建运行环境,文中不拖泥带水过多讲述基础知识,结
分享一个 HIVE SQL 性能优化点 - 使用公共表表达式 CTE 替换临时表
hive 作业的性能优化是一个永恒的话题,其优化方法也有很多,在此分享一个优化点,即编写 SQL 时使用公共表表达式 CTE 替换临时表,经测试优化效果还不错,尤其是涉及到当量IO的场景。
国产 ETL 工具 ETL 产品 数据交换系统
ETL产品的选型工作一直以来都是困扰架构师的一块心病,国外付费产品用不起,国外免费产品学习成本高、不易实施。
更改 HIVE 表字段数据类型有哪些注意事项?
更改HIVE 表字段数据类型有哪些注意事项? 1. 使用 HIVE 表的常见规范 2. 更改HIVE 表字段数据类型的注意事项 3. 相关JIRA
公共大数据集群中如何配置 YARN 的公平调度器和容量调度器
公共大数据集群中如何配置 YARN 的公平调度器和容量调度器 1 YARN 资源管理框架与公平/容量调度器 2 公平/容量调度器配置原则概述 3 如何排查调度器资源配置引起的业务问题 4 公平调度器相关重要参数 5 容量调度器相关重要参数
CDH5 部署三部曲之二:部署和设置
本文是《CDH5部署三部曲》的第二篇,前文将集群所有机器做了必要的设置,今天一起来完成CDH的部署、启动、设置等操作
多点 DMALL × Apache Kyuubi:构建统一 SQL Proxy 探索实践
伴随着国家产业升级的推进和云原生技术成熟,多点 DMALL 大数据技术也经历了从存算一体到存算分离的架构调整变迁。本文将从引入 Kyuubi 实现统一 SQL Proxy 的角度讲述这一探索实践的历程。
如何杜绝 spark history server ui 的未授权访问?
如何杜绝 spark history server ui 的未授权访问? 默认状况下,Spark history Sever ui 是没有任何访问控制机制的,任何用户只要知道 shs 对应的 url,就可以访问链接查看 spark 作业的运行状况。
漫游 Hadoop(一):NameNode 公平队列
HDFS NameNode是Hadoop最重要的模块,负责文件系统命名空间管理的同时,还需要处理来自所有客户端的RPC读写请求,通常负载严重,为了防止单用户批量请求导致其他用户服务质量下降,NameNode通过Fair Call Queue机制来保证不同用户请求被处理的公平性,该机制