数据测试实践:从一个 bug 开始的大数据引擎兼容性探索
作者:京东零售 李晓洁
我们常常忘记,天才也取决于其所能掌握的数据,即使阿基米德也无法设计出爱迪生的发明。——Ernest Dimnet
在大数据时代,精准而有效的数据对于每个致力于长期发展的组织来说都是重要资产之一,而数据测试更是不可或缺的一部分。数据测试不仅关注数据加工的代码逻辑,还要考虑大数据执行引擎带来的影响,因为各种引擎框架将对同一份数据产生不同的计算或检索结果。本文将从一个年度账单 bug 引入,讲解在数据测试实践中对大数据执行引擎兼容性差异的探索。
一、需求内容
京东-我的京东-年度账单是一年一次,以用户视角对在平台一年的消费情况进行总结。账单从购物,权益,服务等方面切入,帮助用户挖掘在自我难以认知的数据角度,通过这种方式让用户从账单中发掘打动内心的立意,并主动进行分享和传播。本次,我京年度账单以“2022 购物印象”为主题,通过不同的数据维度组成村落故事线,用户以虚拟人物形象贯穿始终,用户浏览完故事线后,可生成购物印象。
年度账单其中一个报表为用户年度购买的小家电品类。该报表使用年度账单汇总表中的小家电品类集合字段,计算了 2022 年度某用户全年最后购买的两款小家电所在的品类。本文 bug 分享将围绕这个字段展开。
二、 缺陷描述
缺陷描述:在 APP 层用户年度账单汇总模型 app_my_jd_user_bill_year_sum 中,对于小家电品类集合字段,APP 表结果与手动计算结果不一致。
以用户'Mercury'、'乐乐 1024'、'活力少年'的购买数据为例,上游 ADM 层以array<string>
类型存储用户每月购买的小家电相关品类,如下图所示:
• 根据小家电品类集合字段定义,APP 层应取这三个用户全年最后购买的 2 个品类,即'Mercury'在 2022 年 11 月购买的 VR 头戴显示器、电炒锅,'乐乐 1024'在 2022 年 10 月购买的冲牙器、空气净化器,'活力少年'在 2022 年 10 月购买的 VR 头戴显示器、电炒锅。因此,经手动计算,APP 层正确计算结果应为:
• 而 APP 层年度账单汇总表中的小家电集合品类如下,结果错误,不符合预期结果。
三、 缺陷排查过程
1. 执行引擎兼容差异
测试排查中,首先发现了 Hive 和 Spark 引擎之间的语法兼容差异。
• 当使用 APP 层脚本中小家电品类集合口径构建 SQL,手动对上游表执行查询时发现,Hive 引擎得到的集合有序,执行结果正确:
• 使用 Spark 引擎执行查询时,集合乱序,执行结果错误:
2. 脚本梳理
缺陷原因为集合乱序导致的取数错误。每个用户在上游 ADM 存在 12 个数组对应 12 个月购买小家电品类的集合,需要集合函数(collect)将 12 个月分组数据倒序排序,汇合成 1 个列表,然后取列表前两个元素。
HQL 提供两种分组聚合函数:collect_list()
和collect_set()
,区别在于collect_set()
会对列表元素去重。由于用户不同月购买的品类集合可能重复,因此脚本使用了collect_set()
。
然而collect_set()
将导致集合乱序,集合中元素不再按月份倒序排列,取出 List[0]和 List[1]不是用户全年最后购买的两个小家电品类。
3. 结论
• 计算脚本逻辑错误,不应使用collect_set()
聚合分组。
• 在原生 Hive/Spark 中,collect_set()
函数均无法保证集合有序,而大数据平台 Hive 对集合计算有序。因此,该脚本在 Hive 引擎下可以达到生成全年最后购买两个小家电品类的预期目标,但 spark 引擎则无法得到正确结果。
• Hive 执行效率较低,研发通常通过 Spark 引擎执行,最终导致结果错误。
四、大数据计算引擎兼容差异
1. collect_list()/collect_set() 在 hive/spark 和 presto 之间的区别
• collect_set()
与collect_list()
在 Presto 中无法兼容。
• 替代函数:array_agg()
(https://prestodb.io/docs/current/functions/aggregate.html?highlight=array_agg#array_agg)
2. 行转列函数在 hive 和 presto 之间的区别
• Hive 使用lateral VIEW explode()
执行行转列的操作,而 Presto 不支持该函数。这种单列的值转换成和 student 列一对多的行的值映射.
◦ Hive/Spark query:
• Presto 支持UNNEST
来扩展 array 和 map。文档:(https://prestodb.io/docs/current/migration/from-hive.html)
◦ Presto query:
3. 隐式转换在引擎之间的区别
• Hive/Spark 支持包括字符串类型到数字类型在内的多种隐式转换,如将字符串'07'转化为数字 7,然后进行比较操作。
◦ Hive 隐式转换规则:详见链接 Allowed Implicit Conversions
• 虽然 Presto 也有自己的一套隐式类型转换规则包含在public Optional<Type> coerceTypeBase(Type sourceType, String resultTypeBase)
方法中,但对数据类型的要求更为严格。一些在 Hive 中常见的数字与字符串进行比较的查询语句,Presto 会直接抛类型不一致的错误。
◦ 下图为 Hive 和 Presto 的隐式转换规则,蓝色区域是 Presto 和 Hive 都支持的类型转换,绿色区域是 Presto 不支持但是 Hive 支持的类型转换,红色区域是两者都不支持的类型转换。可以看到,hive 的隐式转换更为广泛,而 presto 尤其在字符类型的隐式转换中更为严格。
• 隐式转换示例:
版权声明: 本文为 InfoQ 作者【京东科技开发者】的原创文章。
原文链接:【http://xie.infoq.cn/article/023ebcbad1405f1de616a3dfc】。文章转载请联系作者。
评论