写点什么

hive

1 人感兴趣 · 34 次引用

  • 最新
  • 推荐

hive 与传统数据库对比

1.查询语言。由于 SQL 被广泛的应用在数据仓库中,因此,专门针对 Hive 的特性设计了类 SQL 的查询语言 HQL。熟悉 SQL 开发的开发者可以很方便的使用 Hive 进行开发。

https://static001.geekbang.org/infoq/a8/a8edc8bcc63eed5ccd6a2fe3785d8cc4.jpeg?x-oss-process=image/resize,w_416,h_234

从 Map 和 Reduce 角度谈 Hive 优化

通常情况下,作业会通过input的目录产生一个或者多个map任务。

https://static001.geekbang.org/infoq/10/10ea7ab7b3ed5e0f672b088a03c33ef6.jpeg?x-oss-process=image/resize,w_416,h_234

hive 的数据存储格式

Hive支持的存储数的格式主要有:TEXTFILE(行式存储) 、SEQUENCEFILE(行式存储)、ORC(列式存储)、PARQUET(列式存储)

https://static001.geekbang.org/infoq/bc/bce73cd199456e782f9de78f17f2fef5.jpeg?x-oss-process=image/resize,w_416,h_234

Hive 相关的总结

Hive 和数据库除了拥有类似的查询语言,再无类似之处。

https://static001.geekbang.org/infoq/88/882aded58ff48e1528f1f53d51831751.jpeg?x-oss-process=image/resize,w_416,h_234

一文学完所有的 Hive Sql(两万字最全详解)

本文基本涵盖了Hive日常使用的所有SQL,因为SQL太多,所以将SQL进行了如下分类:一、DDL语句(数据定义语句):

https://static001.geekbang.org/infoq/bc/bce73cd199456e782f9de78f17f2fef5.jpeg?x-oss-process=image/resize,w_416,h_234

hive 数据倾斜解决办法

1)通常情况下,作业会通过input的目录产生一个或者多个map任务。

https://static001.geekbang.org/infoq/1e/1ed4815548718a63507fb8e744dd215d.jpeg?x-oss-process=image/resize,w_416,h_234

【最新】2021 年 Hive 阶段最全面试真题 - 附答案

         1000万条数据(10G);为了加快解析速度,使用redis作为缓存,MR运行只与redis交互,解析完成后统一在hbase中持久化存储.

https://static001.geekbang.org/infoq/a7/a78a6ec8187358349a22d340c0952bdb.jpeg?x-oss-process=image/resize,w_416,h_234

Hive 底层原理:explain 执行计划详解

不懂hive中的explain,说明hive还没入门,学会explain,能够给我们工作中使用hive带来极大的便利!

Hive HMS Canary 时间较长异常分析

用户头像
笨小康2 月 19 日

Cloudera 管理的 Hadoop 集群中 Hive 服务 MetaStore 角色出现 canary 异常,表现为用户通过 Hive 客户端 create/drop/alter 等操作时间很慢,基本维持在 200s 多一点,本文主要针对问题分析这一现象的原因之一。

https://static001.geekbang.org/infoq/6f/6fa8c975f9808ecfa44259f85282baa5.jpeg?x-oss-process=image/resize,w_416,h_234

Hive 操作异常总结

用户头像
小马哥1 月 25 日

收集Hive安装过程中的异常及解决

https://static001.geekbang.org/infoq/9e/9e2e061108beb5cdb2bdb3f025e9d191.jpeg?x-oss-process=image/resize,w_416,h_234

大数据知识专栏 - 数据仓库

用户头像
小马哥1 月 24 日

大数据专栏系列文章: 通过该文章, 了解数据仓库, 入门其基本特征, 以及数据仓库与数据库的各自作用等, 为Hive的学习做准备.

https://static001.geekbang.org/infoq/20/206664bd53959d4e8c237d54a30e68c1.jpeg?x-oss-process=image/resize,w_416,h_234

如何 debug hive 源码,知其然知其所以然

用户头像
王凯1 月 17 日

最近在出差,客户现场的 HiveServer 在很长时间内不可用,查看 CM 的监控发现,HiveServer 的内存在某一时刻暴涨,同时 JVM 开始 GC,每次 GC 长达 1 分钟,导致很长时间内,整个 HiveServer 不可用。

https://static001.geekbang.org/infoq/a8/a8e648f83a451247db54d19f3b127e16.jpeg?x-oss-process=image/resize,w_416,h_234

九个最容易出错的 Hive sql 详解及使用注意事项

阅读本文小建议:本文适合细嚼慢咽,不要一目十行,不然会错过很多有价值的细节。

https://static001.geekbang.org/infoq/e1/e1e1713fb52c1ad7990123b8403ea677.jpeg?x-oss-process=image/resize,w_416,h_234

Hive 的调优你都知道那些?

用户头像
大数据老哥1 月 8 日

我们在工作中还是在学习中有都会遇到我们写的HQL语句执行效率不高,那我们该怎么提高查询效率那,这篇文章就带你从不同维度讲解,让你的HQL瞬间提高一个档次。记得收藏

https://static001.geekbang.org/infoq/77/772f95c083c8ed17db69e6d507b081c4.jpeg?x-oss-process=image/resize,w_416,h_234

一文教你学会 Hive 视图和索引

用户头像
大数据老哥1 月 6 日

我们在写HQL有没有遇到过数据量特别大的时候比如,使用HQL 处理起来非常复杂,非常慢,这时候我们可以使用Hive给加个索引来提高我们的速度。点赞 点赞 点赞

Hive 中,同时存在 map、array、struct 这三种格式,应如何在建表语句中指定分隔符?

用户头像
Geek_de98572020 年 12 月 18 日

Hive相比传统的关系型数据库,有map、array、和struct这三种数据格式。如果一张表中同时存在这三种格式,建表时应该如何指定分隔符呢?

时空碰撞优化系列·二

用户头像
誓约·追光者2020 年 9 月 22 日

对之前的方案补充了计算量上的优化

windows 平台 python3 使用 impyla 连接 hive 问题汇总

用户头像
誓约·追光者2020 年 9 月 16 日

windows下python3通过impala连接hive遇到的问题和解决方法

https://static001.geekbang.org/infoq/39/3936b9caa775a175bb843e9e99510807.jpeg?x-oss-process=image/resize,w_416,h_234

大数据简介 & 架构 (一)

用户头像
dony.zhang2020 年 9 月 2 日

随着近年来,信息技术迅猛发展,通过各种终端设备收集大量的用户信息、操作行为等日志,数据的来源和数量正以前所未有的速度增长。对这些数据进行分析、挖掘、机器学习,实现个性化营销、智能推荐等应用,为公司挖掘更多的商业价值,为用户带来更好的体验。

https://static001.geekbang.org/infoq/25/25557b710250321c8595200287c83a5b.jpeg?x-oss-process=image/resize,w_416,h_234

第 12 周命题作业

用户头像
hifly2020 年 9 月 2 日

分析如下 HiveQL,生成的 MapReduce 执行程序,map 函数输入是什么?输出是什么,reduce 函数输入是什么?输出是什么?

hive 拉链表优化·百亿量级数据支持准实时更新

用户头像
誓约·追光者2020 年 8 月 12 日

通过hive sql实现百亿量级数据的准实时更新,保证数据强一致性,改动极小,对上下游没有任何影响

hive_hive资料文章-InfoQ写作平台