什么是数据粒度
什么是数据粒度,数据粒度其实就是指数据仓库的数据单位中保存数据的细化或综合程度的级别。细化程度越高,粒度级越小。确定粒度是数仓开发人员面对的一个重要设计。假设数据仓库的粒度确定合理,设计和实现中的其余方便就能够很顺畅的进行,否则,假设粒度确定的不合理就会是其他全部方面都很难进行。粒度的大小需要数仓设计时在数据量大小与查询的详细程度之间进行权衡。
设计粒度时需要注意什么问题,既然粒度对数仓这么重要,那如何来设计粒度?粒度的主要问题是使数据处于一个合适的级别,粒度级别不能太高也不能太低。低的粒度级别能提供详尽的数据。但要占用较多的存储空间和较长的查询时间,搞的粒度级别能够高速方便的进行查询,但不能提供过细的数据。总之是要结合业务的特点,数据量等方便综合考虑。
粒度一般可分为两种形式,第一种是对数据仓库中数据综合程度高低的一个度量,能够影响数据仓库中的数据量,也能够影响数据的查询。粒度越小,详细程度越高,综合程度就越低。相反,粒度越大,详细程度越低。另一种形式的粒度是样本数据的粒度。一般情况下,数仓中的数据划分为:详细数据、轻度总结、高度总结三级。在确定数据粒度时,有一条原则:细化程度越高,粒度越小。数据仓库中包含详细数据、按月汇总数据、按年汇总数据,之后根据数据粒度划分是否符合所有主题的需求。
版权声明: 本文为 InfoQ 作者【奔向架构师】的原创文章。
原文链接:【http://xie.infoq.cn/article/731f539ab2d4996d2b25f6b33】。
本文遵守【CC-BY 4.0】协议,转载请保留原文出处及本版权声明。
评论