hadoop
1 人感兴趣 · 215 次引用
- 最新
- 推荐
Kafka 集群管理:如何实现数据均衡与性能最大化
如果你想了解更多关于:大数据运维相关的系统环境准备、基础环境安装、集群部署以及应用组件安装等全方位的技术的问题。 例如:从环境搭建/集群部署,内存扩容/问题排查,数据迁移等助你轻松应对数据管理的复杂性。可以联系我:15928721005
Hive on Spark 实战:深入理解与配置 Spark 集群
主要记录如何安装配置Hive on Spark,在执行以下步骤之前,请先确保已经安装Hadoop集群,Hive,MySQL,JDK,Scala,具体安装步骤不再赘述。
Hadoop 作业调度优化,提升数据处理速度的杀手锏!
在大数据处理项目中,HDFS存储多目录、集群数据均衡和Hadoop参数调优是三个关键的领域,它们对于确保Hadoop集群的高效运行和数据管理至关重要。
Cloudera Impala 与 Hive:架构对比及协同工作机制
深入探讨了解关于大数据技术的内存扩容、缩容策略,详尽解析了故障诊断与问题排查的方法论,更不乏数据迁移的实战技巧与最佳实践。
Cloudera Hue 深度解析:安装、配置到高级用法
HUE 是一个开源的 Apache Hadoop UI 系统,早期由 Cloudera 开发,它是基于 Python Web 框架 Django 实现,后来贡献给开源社区。它包括 3 个部分 hue ui,hue server, hue db。
Kafka 集群升级项目实施方案,打造高效数据处理平台
深入探讨大数据技术的内存扩容、缩容策略,详尽解析了故障诊断与问题排查的方法论,更不乏数据迁移的实战技巧与最佳实践。
打造数据平台:Cloudera 下载安装全流程!
汇集了Hadoop Cloudera的系统环境准备、基础环境安装、集群部署以及应用组件安装等全方位的技术运维内容。无论您是初学者还是资深工程师,都能在这里找到适合自己的学习资料和实战经验。
Hadoop RPC 简介
RPC(Remote Procedure Call)远程过程调用协议,一种通过网络从远程计算机上请求服务,而不需要了解底层网络技术的协议。RPC它假定某些协议的存在,例如TPC/UDP等,为通信程序之间携带信息数据。在OSI网络七层模型中,RPC跨越了传输层和应用层,RPC使得开发
Hadoop 集群间同步数据的最佳实践
1. Hadoop 集群间如何同步数据? 2. Hadoop 集群间单方开启 Kerberos 认证如何同步数据? 3. Hadoop 集群间均开启 Kerberos 认证如何同步数据?
hive 数据迁移
Distcp是hadoop内部自带的一个程序,用于hdfs之间的数据拷贝。Distcp是作为一个 MapReduce作业来实现的,该复制作业是通过集群中并行运行的 map来完成。
windows 下 Hive 搭建踩坑汇总
Hive是一个基于Hadoop的数据仓库工具,以一种类SQL的HQL语句操作Hadoop数据仓库(HDFS等)。所以本地windows安装前需要先搭建Hadoop。前面文章已经大概介绍了环境搭建和踩坑汇总,所以这里也依旧只是介绍基础的安装方法。因为关于Hive的安装,网上其实有
Windows 下 hadoop 环境搭建之 NameNode 启动报错
因为平时工作和日常接触到的大都是的中型项目,所以少有个性化推荐等涉及大数据的功能。但是后期应该也会在自己项目中添加信息推荐模块,所以就开始关注spark,hadoop,Thrift等工具,以下就以hadoop先开始,包括环境搭建和配置过程中踩坑过程。
袋鼠云产品功能更新报告 05 期|应有尽“优”,数栈一大波功能优化升级!
袋鼠云产品功能更新报告05期来啦!这段时间,我们对产品本身以及客户反馈的一些问题进行了持续的更新和优化,包括对离线平台数据同步功能的更新,数据资产平台血缘问题的优化等,欢迎点进正文查看数栈产品的最新功能。
膜拜!华为内部都在强推的 783 页大数据处理系统:Hadoop 源代码
大数据处理系统:Hadoop源代码情景分析,采用的是Hadoop2.6。如果你有点野心,想对大数据处理系统有比较深入透彻的了解,特别是想有朝一日自己也设计一个这样的系统,甚至自己把它写出来,那么你真应该认真读一下这本文,以及 Hadoop的源代码,看看人家是怎么设计怎
etl 增量对比解决方案 etl-engine 如何实现增量对比抽取
增量对比解决方案 etl 增量对比抽取数据 etl-engine
深入理解 Taier:MR on Yarn 的实现原理
我们今天常说的大数据技术,它的理论基础来自于2003年 Google 发表的三篇论文,《The Google File System》、《MapReduce: Simplified Data Processing on Large Clusters》、《Bigtable: A Distributed Storage System for Structured Data》。这三篇论文分
hive etl 通过 ETL 导出 Hive 中的数据
Hive 数据如何导出到关系型数据库中,ETL 导出 Hive 数据
云原生 + AI 时代已至,大数据底座何去何从?
大家都知道,对于很多架构师而言,做技术选型是一件“常态化工作”。要找准一项技术是否适合某个场景,最核心的是要看这项技术当初是因为什么而诞生的,这个最初始的需求往往就是这项技术的基因。
Hadoop 及 Spark 分布式 HA 运行环境搭建
工欲善其事必先利其器,在深入学习大数据相关技术之前,先手动从0到1搭建一个属于自己的本地Hadoop和Spark运行环境,对于继续研究大数据生态圈各类技术具有重要意义。本文旨在站在研发的角度上通过手动实践搭建运行环境,文中不拖泥带水过多讲述基础知识,结
分享一个 HIVE SQL 性能优化点 - 使用公共表表达式 CTE 替换临时表
hive 作业的性能优化是一个永恒的话题,其优化方法也有很多,在此分享一个优化点,即编写 SQL 时使用公共表表达式 CTE 替换临时表,经测试优化效果还不错,尤其是涉及到当量IO的场景。
国产 ETL 工具 ETL 产品 数据交换系统
ETL产品的选型工作一直以来都是困扰架构师的一块心病,国外付费产品用不起,国外免费产品学习成本高、不易实施。
更改 HIVE 表字段数据类型有哪些注意事项?
更改HIVE 表字段数据类型有哪些注意事项? 1. 使用 HIVE 表的常见规范 2. 更改HIVE 表字段数据类型的注意事项 3. 相关JIRA