大厂数据开发老司机送给数据工程师的 10 条建议,建议先收藏再细品!
10、关联数据之前,先检查维度表,各维度的值是否有异常,比如 null,空值,异常值等等。
9、进行聚合操作后,检查聚合后的数据值是否合理,比如 sum 求和后的值,找一些已有的数据做核对。
8、left join 之后的数据是否有重复,关联字段是否存在一对多的情况,是否符合业务预期。
7、查看上下游指标间的关联关系,是否存在统计相加之后的值和前序依赖对应的不上。
6、重刷数据一定要先新建一个任务,特别是任务由于上有修改表结构导致的任务失败,新建任务,写入临时表进行数据核对后再刷新原任务运行后续依赖。
5、修改表、删除表之前一定要先备份,防止“删库跑路”情况出现。
4、烟囱式开发,同一个维度在整个数据平台中不一致,维度数据要跟主数据关联起来。
3、过度钻研数据处理技术,忽略业务逻辑,有时候优化一条 SQL,也许只是业务逻辑的变通。
2、只管开发和运维任务,不总结。形成团队的 wiki 进行开发和运维问题处理知识总结,会大大提高团队问题处理效率。
1、忽略数仓对业务成功的支持,只关注效率上的提升,“黑猫白猫,只要抓住老鼠就是好猫”,没有被业务认可的数据团队,长久不了。
评论