公司内部使用的数仓开发规范
HIVE SQL 作为数仓操作语言,良好的代码习惯能我们高效地完成数据分析工作。除了根据 SQL 执行顺序上的优化外,按以下规范编写 SQL 代码既能使代码更加清晰,方便自己后期维护,也方便其他同事接手。
一、注释规范
注释内容要清晰明了,含义准确,避免歧义
字段注释紧跟在字段后面
应对不易理解的分支条件表达式加注释
对重要的计算应说明其功能
过长的函数实现,应将其语句按实现的功能分段加以概括性说明
原则上所有表、字段、任务都需要添加注释,任务有特定的注释规范,见下文任务注释说明
任务注释说明
任务注释注意事项补充
1、提供任务名,方便任务创建时任务的获取以及平台中任务查询 2、提供创建者、创建日期、功能描述等信息,方便后期维护跟踪 2、提供代码变更历史,便于了解代码演进历史及依据 3、提供脚本依赖表清单,方便后续任务依赖配置 4、提供输出表清单,方便确认是否单个目标表
二、存储格式规范
所谓的存储格式就是在 Hive 建表的时候指定的将表中的数据按照什么样子的存储方式,如果指定了方式,那么在向表中插入数据的时候,将会使用该方式向 HDFS 中添加相应的数据类型。建表如果无特殊要求,一律使用下面的 row format 格式及存储格式。
三、建表语句规范
四、数据类型规范
1、一般情况下大部分字段都采用 string 类型 2、金额类及其它小数点数据等非整型数据统一使用 decimal3、分区字段比较特殊,在数仓中统一使用 bigint(平台特性原因),非平台项目可以使用 date 或 string4、金额类数据如果单位是元,则采用 decimal(16,4) 长度类型,如果单位是万元或亿元,则采用 decimal(10,6) 长度类型,其它数据字段类型视具体情况而定 5、整形数值统一使用 BIGINT 或 INT,最大值 10 位及以上的整数使用 BIGINT,最大值在 3-9 位的整数使用 INT6、时间类型数据不做具体要求,可以使用 string、也可以根据日期格式使用**date 或 timestamp,**对于只包含年月日的数据字段可采用 date 类型;对于既包含年月日也包含时分秒的数据字段可采用 timestamp 类型
五、SQL 编码原则及规范
1、SELECT 查询语句中禁止使用 select *,所有操作必须明确指定列名 2、QL 代码中应用到的所有关键字、保留字都使用大写,如 select、from、where、and、or、union、insert、delete、group、having、count 等。3、SQL 语句多表连表时,应使用表的别名,同时表别名形式来引用列 4、SELECT 语句排列样式上,对于字段应每行一个进行编排,两个字段之间的逗号分割符紧跟在第一个字段后面或第二个字段的前面,as 语句应与相应的字段在同一行,多个字段的 as 建议尽量对齐在同一列上
5、CASE 语句的编写排列样式上,when 语句应在 case 语句下一行,缩进一个缩进量后开始编写,每个 when 语句一行,当然如果语句较长可换行编排,case 语句必须包含 else 子语,else 子句与 when 子句对齐。
6、SQL 代码中应用到的除关键字、保留字之外的代码,也都使用小写,如字段名、表别名等 7、代码中开发人员应有必要的注释从而增加代码的可读性 8、开发人员编写的代码应功能完善及健壮,同时注重美观行列段落划分整洁清晰 9、代码编写应充分考虑执行速度最有原则
六、空值处理
对于表中的空值,尽量用如下规则统一,如果有特殊情况请视情况而定。
特殊说明:一般而言上述情况基本可以满足需求,但是不排除有特殊情况,需求要求不按照上述规范或者上述不足覆盖的场景,视情况而定。除了将空值替换为特定的值之外,业务也有直接过滤掉数据的情况。
规范要求的项,并非强制性约束,在实际应用中在不违反常规要求的前提下允许存在可理解的偏差。同时在研发过程中,如遇到问题以及好的建议,及时沟通补充此规范。也希望规范在对日常的代码开发工作起到指导作用的同时也将得到不断的完善和补充。
版权声明: 本文为 InfoQ 作者【白程序员的自习室】的原创文章。
原文链接:【http://xie.infoq.cn/article/bcc2b62cb25038d8c8173d911】。文章转载请联系作者。
评论