写点什么

hive

2 人感兴趣 · 129 次引用

  • 最新
  • 推荐

在 Inteillj IDEA 中使用 Spark 操作 Hive

用户头像
北桥苏
20 小时前

前面已经简单介绍过在windows下hadoop和hive环境搭建和基本使用。这次的Spark有点突兀,但是也可以先忽略,重要的是先在IDEA中安装bigData插件连接hadoop已经HDFS,而后再简单介绍使用Spark操作Hive。

windows 下 Hive 搭建踩坑汇总

用户头像
北桥苏
23 小时前

Hive是一个基于Hadoop的数据仓库工具,以一种类SQL的HQL语句操作Hadoop数据仓库(HDFS等)。所以本地windows安装前需要先搭建Hadoop。前面文章已经大概介绍了环境搭建和踩坑汇总,所以这里也依旧只是介绍基础的安装方法。因为关于Hive的安装,网上其实有

https://static001.geekbang.org/infoq/84/84e52f9a38e4de57af15e827635b31da.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

浅谈离线数据倾斜

用最通俗易懂的话来说,数据倾斜无非就是大量的相同key被partition分配到一个分区里,造成了'一个人累死,其他人闲死'的情况,这种情况是我们不能接受的,这也违背了并行计算的初衷,首先一个节点要承受着巨大的压力,而其他节点计算完毕后要一直等待这个忙碌的节点

Hive 和 Spark 分区策略剖析

随着技术的不断的发展,大数据领域对于海量数据的存储和处理的技术框架越来越多。在离线数据处理生态系统最ju代表性的分布式处理引擎当属Hive和Spark,它们在分区策略方面有着一些相似之处,但也存在一些不同之处。

分享一个 hive on spark 模式下使用 HikariCP 数据库连接池造成的资源泄露问题

最近在针对某系统进行性能优化时,发现了一个hive on spark 模式下使用 HikariCP 数据库连接池造成的资源泄露问题,该问题具有普适性,故特地拿出来跟大家分享下。

https://static001.geekbang.org/infoq/fc/fcf9e41592072babfabd616f7c9d07ca.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

hive etl 通过 ETL 导出 Hive 中的数据

Hive 数据如何导出到关系型数据库中,ETL 导出 Hive 数据

分享一个 HIVE SQL 性能优化点 - 使用公共表表达式 CTE 替换临时表

hive 作业的性能优化是一个永恒的话题,其优化方法也有很多,在此分享一个优化点,即编写 SQL 时使用公共表表达式 CTE 替换临时表,经测试优化效果还不错,尤其是涉及到当量IO的场景。

更改 HIVE 表字段数据类型有哪些注意事项?

更改HIVE 表字段数据类型有哪些注意事项? 1. 使用 HIVE 表的常见规范 2. 更改HIVE 表字段数据类型的注意事项 3. 相关JIRA

一种基于 Apache Hive 的元数据智能发现方案

导读:本文介绍了一种基于 Apache Hive 实现的元数据智能发现方案,能够满足用户对原始数据表结构信息自动化创建的基本需求,供大家参考。

线上 hive on spark 作业执行超时问题排查案例分享

分享一个某业务系统的线上 hive on spark 作业在高并发下频现作业失败问题的原因分析和解决方法

如何更改 datax 以支持 hive 的 DECIMAL 数据类型?

1. JAVA 数据类型 - float/double 与 BigDecimal 2. hive 数据类型 - Double,DECIMAL,Numeric 3. 如何更改 datax 以支持 hive 的 DECIMAL 数据类型?

https://static001.geekbang.org/infoq/5b/5b2e59c8cf18c520adf1b0abc1a0fbcf.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

安装和体验 hive

用户头像
程序员欣宸
2022-11-01

Hive是种基于Hadoop的数据仓库工具,将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能,今天来一起部署和体验hive

https://static001.geekbang.org/infoq/f2/f2f5315b2d556f29950be1e22bdc5f95.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

Hive 基本架构

Hive对外提供了三种访问方式,包括Web UI、CLI(Client Line Interface)和Thrift协议(支持JDBC/ODBC),而在Hive后端,主要由三个服务组件构成

线上数据问题排查案例分享 - 因为 HMS 和底层 orc 文件中某字段的数据精度不一致造成的数据丢失问题

线上数据问题排查案例分享-因为 HMS 和底层 orc 文件中某字段的数据精度不一致造成的数据丢失问题

https://static001.geekbang.org/infoq/f1/f180955489bb570f07244fca73127717.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

Apache Kyuubi 在 B 站大数据场景下的应用实践

用户头像
网易数帆
2022-10-27

引入了Kyuubi,通过Kyuubi提供的多租户、多引擎代理以及完全兼容Hive Thrift协议能力,实现各个部门Adhoc任务的资源隔离和权限验证。

https://static001.geekbang.org/infoq/3f/3f0af750186fed5a656c069eef96d6d9.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

Arctic 基于 Hive 的流批一体实践

用户头像
网易数帆
2022-10-26

帮助业务平滑地从 Hive 过渡到 Streaming Lakehouse

https://static001.geekbang.org/infoq/dc/dc608d368dd559206c1e4187cd1dcdb9.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

「Hive 进阶篇」四、HQL 高级巧用

Hive进阶系列(四)核心灵魂十问十答,讲述HiveQL高级巧用,SQL面试题必备掌握

https://static001.geekbang.org/infoq/e6/e6561b486820207917aa555eef32e82e.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

「Hive 进阶篇」三、HQL 底层执行过程及原理详解

Hive进阶系列(三)Hive底层执行过程和原理详解,聊聊一条hiveQL是如何转换为MapReduce程序执行的

https://static001.geekbang.org/infoq/9f/9f17f7605dbf0841e1facac9bcf8a7e3.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

「Hive 进阶篇」二、万字长文超详述 hive 企业级优化

Hive进阶系列(二) 万字长文超详述hive企业及优化思路和实践,干货满满,面试复习和开发学习都是绝佳

https://static001.geekbang.org/infoq/42/42dc78e4c0f0c2974ade55819181337a.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

「Hive 进阶篇」一、详解存储格式及压缩方式

Hive进阶系列(一) 详解hive表 存储格式和压缩方式

CDH/CDP 中开启 kerberos 后如何访问 HDFS/YARN/HIVESERVER2 等服务的 webui

在CDH/CDP等大数据平台中,当开启kerberos安全后,如何访问HDFS/YARN/HIVESERVER2 等服务的webui呢?一起看下相关知识。

大数据平台 CDP 中如何配置 hive 作业的 YARN 队列以确保 SLA?

大家知道,在生产环境的大数据集群中,在向资源管理器YARN提交作业时,我们一般会将作业提交到管理员指定的队列去执行,以利用 YARN 队列的资源隔离性确保作业能够获得足够的资源进行执行,从而确保SLA。

大数据问题排查系列 - 开启 Kerberos 安全的大数据环境中,Yarn Container 启动失败导致 spark/hive 作业失败

大数据集群中开启 Kerberos 后,spark/hive 作业提交到YARN 后,因 YARN Container 启动失败作业无法执行的情况,

大数据生态安全框架的实现原理与最佳实践(下篇)

- 大数据生态安全框架概述 - HDFS 认证详解 - HDFS 授权详解 - HIVE 认证详解 - HIVE 授权详解 - 金融行业大数据安全最佳实践

Apache Kyuubi 在小米大数据平台的应用实践

用户头像
网易数帆
2022-09-02

导读:今天分享的主题是《Kyuubi 在小米大数据平台的应用实践》,主要分为四部分内容:

https://static001.geekbang.org/infoq/c7/c76328d056c684e3d5b2e305cb3edb45.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

hive on spark 还是 spark on hive?

在运行sql的时候,hive on spark 还是 spark on hive 到底是什么呢?它们是一个东西吗?区别是什么?

https://static001.geekbang.org/infoq/55/553ca5b68a566967fee0f60437fa6960.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

Meta 项目功能测试 | 开启 PrestoDB 和 Aria 扫描优化

用户头像
Alluxio
2022-08-19

PrestoDB的Aria项目曾于2020年发布过一组实验性功能,用来提高对表(通过Hive连接器连接并以ORC格式存储数据)的扫描性能。

集群部署 spark、Hadoop 环境

用户头像
Geek_07520b
2022-08-09

本参考文档使用4节点机器集群进行部署,操作用户为root·部署Hadoop环境

hive 数据导入:Python 脚本

在对hive表进行数据导入时,针对有分区表插入数据时,总是使用外部临时表映射静态数据文件,然后再用查询的方式插入数据。

庖丁解牛,复盘 HiveServer2 连接频繁卡顿问题

本文作者为中国移动云能力中心大数据团队软件开发工程师张步涛,文章针对 HiveServer2 连接频繁卡顿问题,使用基本的运维手段找出问题根因,并给出解决方案,供大家参考。

hive_hive技术文章_InfoQ写作社区