hive 的主流文件存储格式对比实验
从存储文件的压缩比和查询速度两个角度对比。
实验数据: log.data
1 压缩比比较
TextFile
复制代码
ORC
复制代码
Parquet
复制代码
数据压缩比结论:
ORC > Parquet > textFile
2 存储文件的查询效率测试
textFile
复制代码
ORC
复制代码
Parquet
复制代码
存储文件的查询效率比较:
ORC > TextFile > Parquet
3. 存储和压缩相结合
官网:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+ORC
ORC 存储方式的压缩:
创建一个非压缩的 ORC 存储方式
复制代码
创建一个 SNAPPY 压缩的 ORC 存储方式
复制代码
版权声明: 本文为 InfoQ 作者【大数据技术指南】的原创文章。
原文链接:【http://xie.infoq.cn/article/a88ec98ca1b73000835c17902】。
本文遵守【CC-BY 4.0】协议,转载请保留原文出处及本版权声明。
评论