Hive 改表结构的两个坑|避坑指南
Hive 在大数据中可能是数据工程师使用的最多的组件,常见的数据仓库一般都是基于 Hive 搭建的,在使用 Hive 时候,遇到了两个奇怪的现象,今天给大家聊一下,以后遇到此类问题知道如何避坑!
坑一:改变字段类型后更新数据不成功
关于 hive 插入数据的一个小坑,今天插入一个表中数据,插入时写的是常数,比如 0.01 ,表中的字段也是 DECIMAL(5,2),按照常理插入的应该是 0.01,但是插入后查询是 0,为甚!
遇到问题,咱也不能退缩!就分析呀,看语句没问题啊!还是上网查查有没有坑友。查了一圈发现还是观望最靠谱!上 hive 官网查,呀~ 发现了原因!
https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Types#LanguageManualTypes-Decimals
根据官网描述,发现在插入分区表时会出现这种情况,此时需要对之前的分区处理下~:
那就测试一下 按照官网的说法:
先建表:
然后插入数据:
然后查询:
发现结果跟想象中的一样~
然后修改表字段:
然后再次插入数据:
查询:
发现有问题啦!
那么按照官网处理:
Determine what precision/scale you would like to set for the decimal column in the table. For each decimal column in the table, update the column definition to the desired precision/scale using the ALTER TABLE command:
If the table is a partitioned table, then find the list of partitions for the table:If the table is not a partitioned table, then you are done. If the table has partitions, then go on to step 3
This can be done with a single ALTER TABLE CHANGE COLUMN by using dynamic partitioning (available for ALTER TABLE CHANGE COLUMN in Hive 0.14 or later, with HIVE-8411):Each existing partition in the table must also have its DECIMAL column changed to add the desired precision/scale.
所以参照官网,这里对表作如下处理:
再次插入数据:
然后查询:
发现结果跟想象中的一样了。这个坑算是过去了~
坑二:增加字段后更新数据不成功
还是上面的例子那张表,再增加一个字段:
然后查询
发现新增的字段默认的值是 NULL,现在我重新覆盖一下元数据,给增加的字段一个值:
然后查询:
不是我们想象的结果,查看一下官方文档说明发现了问题的所在:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL#LanguageManualDDL-Add/ReplaceColumns
靠谱的官网用红色框框提示我们!那就这样处理:
直接查询,发现数据显示的数据已经发生了变化了~
避坑指南
官方文档!!官方文档!!官方文档!!
综上发现,我们是按照 Oracle 这样的标准在考虑 HiveSQL,但是通过阅读官方文档发现二者之间还是有很大不同的,底层原理差别还是有点大!通过这两次踩坑发现,仔细阅读官方文档的重要性!!!
所以,以后大家遇到大数据开源组件的报错问题,第一就是去找官方文档,然后就去找社区,总能发现惊喜!
版权声明: 本文为 InfoQ 作者【数据社】的原创文章。
原文链接:【http://xie.infoq.cn/article/f5d13bb58f5c42ba622696a4d】。文章转载请联系作者。
评论