写点什么

hive

1 人感兴趣 · 45 次引用

  • 最新
  • 推荐
https://static001.geekbang.org/infoq/6f/6f5b9ae11c45ce2a1ffc2aef0d6d64ab.jpeg?x-oss-process=image/resize,w_416,h_234

万字长文详解 HiveSQL 执行计划

Hive SQL的执行计划描述SQL实际执行的整体轮廓,通过执行计划能了解SQL程序在转换成相应计算引擎的执行逻辑,掌握了执行逻辑也就能更好地把握程序出现的瓶颈点,从而能够实现更有针对性的优化。此外还能帮助开发者识别看似等价的SQL其实是不等价的,看似不等

https://static001.geekbang.org/infoq/a7/a764eab613e230e7cb99074cac628bf8.png?x-oss-process=image/resize,w_416,h_234

Flink 集成 hive 测试及生产规划

用户头像
一弦思华年6 月 20 日

Flink在1.10开始,Flink对catalog模块进行了重构,能够兼容hive的catalog,并与之打通。作为离线计算的经久不衰的Hive组件,使用扮演着开源离线领域数仓的基础,很多公司的离线数仓都是以Hdfs,Yarn,Hive为基础建设起来的。

Hive|如何避免数据倾斜

用户头像
数据社5 月 29 日

对于每一个表(table)或者分区, Hive可以进一步组织成桶,也就是说桶是更为细粒度的数据范围划分。Hive也是 针对某一列进行桶的组织。Hive采用对列值哈希,然后除以桶的个数求余的方式决定该条记录存放在哪个桶当中。

https://static001.geekbang.org/infoq/f7/f7bc64c9786b87e05bcd4e6a5e2c3407.png?x-oss-process=image/resize,w_416,h_234

Hive 对分区分桶表的操作

在大数据中,最常用的一种思想就是分治,我们可以把大的文件切割划分成一个个的小的文件,这样每次操作一个小的文件就会很容易了,同样的道理,在hive当中也是支持这种思想的,就是我们可以把大的数据,按照每天,或者每小时进行切分成一个个的小的文件,这样

https://static001.geekbang.org/infoq/f7/f7bc64c9786b87e05bcd4e6a5e2c3407.png?x-oss-process=image/resize,w_416,h_234

Hive 窗口函数与分析函数

在sql中有一类函数叫做聚合函数,例如sum()、avg()、max()等等,这类函数可以将多行数据按照规则聚集为一行,一般来讲聚集后的行数是要少于聚集前的行数的。但是有时我们想要既显示聚集前的数据,又要显示聚集后的数据,这时我们便引入了窗口函数。窗口函数又叫OL

https://static001.geekbang.org/infoq/f7/f7bc64c9786b87e05bcd4e6a5e2c3407.png?x-oss-process=image/resize,w_416,h_234

hive 交互的几种方式

​ 以上命令操作完成之后,一定要确认mysql里面出来一个数据库hive

https://static001.geekbang.org/infoq/7f/7f4c388f97557bc484061e0b54ba4465.jpeg?x-oss-process=image/resize,w_416,h_234

Hive 改表结构的两个坑|避坑指南

用户头像
数据社5 月 13 日

Hive在大数据中可能是数据工程师使用的最多的组件,常见的数据仓库一般都是基于Hive搭建的,在使用Hive时候,遇到了两个奇怪的现象,今天给大家聊一下,以后遇到此类问题知道如何避坑!

https://static001.geekbang.org/infoq/f7/f7bc64c9786b87e05bcd4e6a5e2c3407.png?x-oss-process=image/resize,w_416,h_234

hive 的主流文件存储格式对比实验

从存储文件的压缩比和查询速度两个角度对比。

https://static001.geekbang.org/infoq/f7/f7bc64c9786b87e05bcd4e6a5e2c3407.png?x-oss-process=image/resize,w_416,h_234

精选 Hive 高频面试题 11 道,附答案详细解析

未被external修饰的是内部表,被external修饰的为外部表。

https://static001.geekbang.org/infoq/f7/f7bc64c9786b87e05bcd4e6a5e2c3407.png?x-oss-process=image/resize,w_416,h_234

Hive 解析 Json 数组超全讲解

在Hive中会有很多数据是用Json格式来存储的,如开发人员对APP上的页面进行埋点时,会将多个字段存放在一个json数组中,因此数据平台调用数据时,要对埋点数据进行解析。接下来就聊聊Hive中是如何解析json数据的。

hive 与传统数据库对比

1.查询语言。由于 SQL 被广泛的应用在数据仓库中,因此,专门针对 Hive 的特性设计了类 SQL 的查询语言 HQL。熟悉 SQL 开发的开发者可以很方便的使用 Hive 进行开发。

https://static001.geekbang.org/infoq/a8/a8edc8bcc63eed5ccd6a2fe3785d8cc4.jpeg?x-oss-process=image/resize,w_416,h_234

从 Map 和 Reduce 角度谈 Hive 优化

通常情况下,作业会通过input的目录产生一个或者多个map任务。

https://static001.geekbang.org/infoq/10/10ea7ab7b3ed5e0f672b088a03c33ef6.jpeg?x-oss-process=image/resize,w_416,h_234

hive 的数据存储格式

Hive支持的存储数的格式主要有:TEXTFILE(行式存储) 、SEQUENCEFILE(行式存储)、ORC(列式存储)、PARQUET(列式存储)

https://static001.geekbang.org/infoq/bc/bce73cd199456e782f9de78f17f2fef5.jpeg?x-oss-process=image/resize,w_416,h_234

Hive 相关的总结

Hive 和数据库除了拥有类似的查询语言,再无类似之处。

https://static001.geekbang.org/infoq/88/882aded58ff48e1528f1f53d51831751.jpeg?x-oss-process=image/resize,w_416,h_234

一文学完所有的 Hive Sql(两万字最全详解)

本文基本涵盖了Hive日常使用的所有SQL,因为SQL太多,所以将SQL进行了如下分类:一、DDL语句(数据定义语句):

https://static001.geekbang.org/infoq/bc/bce73cd199456e782f9de78f17f2fef5.jpeg?x-oss-process=image/resize,w_416,h_234

hive 数据倾斜解决办法

1)通常情况下,作业会通过input的目录产生一个或者多个map任务。

https://static001.geekbang.org/infoq/1e/1ed4815548718a63507fb8e744dd215d.jpeg?x-oss-process=image/resize,w_416,h_234

【最新】2021 年 Hive 阶段最全面试真题 - 附答案

         1000万条数据(10G);为了加快解析速度,使用redis作为缓存,MR运行只与redis交互,解析完成后统一在hbase中持久化存储.

https://static001.geekbang.org/infoq/a7/a78a6ec8187358349a22d340c0952bdb.jpeg?x-oss-process=image/resize,w_416,h_234

Hive 底层原理:explain 执行计划详解

不懂hive中的explain,说明hive还没入门,学会explain,能够给我们工作中使用hive带来极大的便利!

Hive HMS Canary 时间较长异常分析

用户头像
笨小康2 月 19 日

Cloudera 管理的 Hadoop 集群中 Hive 服务 MetaStore 角色出现 canary 异常,表现为用户通过 Hive 客户端 create/drop/alter 等操作时间很慢,基本维持在 200s 多一点,本文主要针对问题分析这一现象的原因之一。

https://static001.geekbang.org/infoq/6f/6fa8c975f9808ecfa44259f85282baa5.jpeg?x-oss-process=image/resize,w_416,h_234

Hive 操作异常总结

用户头像
小马哥1 月 25 日

收集Hive安装过程中的异常及解决

https://static001.geekbang.org/infoq/9e/9e2e061108beb5cdb2bdb3f025e9d191.jpeg?x-oss-process=image/resize,w_416,h_234

大数据知识专栏 - 数据仓库

用户头像
小马哥1 月 24 日

大数据专栏系列文章: 通过该文章, 了解数据仓库, 入门其基本特征, 以及数据仓库与数据库的各自作用等, 为Hive的学习做准备.

https://static001.geekbang.org/infoq/20/206664bd53959d4e8c237d54a30e68c1.jpeg?x-oss-process=image/resize,w_416,h_234

如何 debug hive 源码,知其然知其所以然

用户头像
王凯1 月 17 日

最近在出差,客户现场的 HiveServer 在很长时间内不可用,查看 CM 的监控发现,HiveServer 的内存在某一时刻暴涨,同时 JVM 开始 GC,每次 GC 长达 1 分钟,导致很长时间内,整个 HiveServer 不可用。

https://static001.geekbang.org/infoq/a8/a8e648f83a451247db54d19f3b127e16.jpeg?x-oss-process=image/resize,w_416,h_234

九个最容易出错的 Hive sql 详解及使用注意事项

阅读本文小建议:本文适合细嚼慢咽,不要一目十行,不然会错过很多有价值的细节。

hive_hive资料文章-InfoQ写作平台