openGauss 内核分析:查询重写
本文分享自华为云社区《openGauss内核分析(四):查询重写》,作者:酷哥。
查询重写
SQL 语言是丰富多样的,非常的灵活,不同的开发人员依据经验的不同,手写的 SQL 语句也是各式各样,另外还可以通过工具自动生成。SQL 语言是一种描述性语言,数据库的使用者只是描述了想要的结果,而不关心数据的具体获取方式,输入数据库的 SQL 语言很难做到是以最优形式表示的,往往隐含了一些冗余信息,这些信息可以被挖掘用来生成更加高效的 SQL 语句。查询重写就是把用户输入的 SQL 语句转换为更高效的等价 SQL,查询重写遵循两个基本原则。
• 等价性:原语句和重写后的语句,输出结果相同。
• 高效性:重写后的语句,比原语句在执行时间和资源使用上更高效。
查询重写优化既可以基于关系代数的理论进行优化,例如谓词下推、子查询优化等,也可以基于启发式规则进行优化,例如 Outer Join 消除、表连接消除等。查询重写是基于规则的逻辑优化。
在代码层面,查询重写的架构如下:
下面以外连接消除 Outer2Inner—外连接转内连接为例分析查询重写过程:在 left outer join 或者 right outer join 中,如果查询条件中存在逻辑上能够包含 IS NOT NULL,例如 c1 > 0,可以将查询转换成 INNER JOIN,从而减少关联处理产生的中间结果集
外连接消除 Outer2Inner
下面首先以一个例子来说明各种多表连接方式的区别
内连接 inner join:返回两个表都满足的组合,相当于取两个表的交集
左连接 left outer join:返回左表中的所有行,如果左表中行在右表中没有匹配行,则结果中右表中的列返回空值
右连接 right outer join:返回右表中的所有行,如果右表中行在左表中没有匹配行,则结果中左表中的列返回空值
全连接 full join:返回左表和右表中的所有行。当某行在另一表中没有匹配行,则另一表中的列返回空值,相当于取两个表并集
在以上实验的基础上增加 t2 表的 where 条件
left join 和 inner join 的结果是一样的,这是因为查询条件中包含 WHERE t2.c2 >100 这个条件,t2 表所有不匹配元组均被过滤掉(包括空值),因此可以进行查询转换 left-outer join -> inner join,能够有效减小 t1 和 t2 关联产生的结果集,达到性能提升的目的。
在 openGauss 数据库系统中,subquery_planner 会遍历查询树中的 rtable,看看是否有 RTE_JOIN 类型的节点存在,设置 hasOuterJoins 标志量,从而进入到 reduce_outer_joins 接口,满足外连接消除条件时再执行外连接的消除。 reduce_outer_Joins 函数内部做两个动作,(1)reduce_outer_joins_pass1 预检查,就是检查 jointree 中是否含有外链接,以及一些引用表的信息,为动作 2 做好信息采集准备,重点参考数据结构 reduce_outer_joins_state;(2)reduce_outer_joins_pass2 真正完成消除外链接。
利用上一期的分析方法,可以得到查询树内存结构(查询树 Query 结构体中 targetList 存储目标属性语义分析结果,rtable 存储 FROM 子句生成的范围表,jointree 的 quals 字段存储 WHERE 子句语义分析的表达式树)
对比 reduce_outer_joins 运行前后查询树,jointree 和 rtable 中的 jointype 都由 join_left 转换为 join_inner,即外连接已转为内连接
版权声明: 本文为 InfoQ 作者【华为云开发者联盟】的原创文章。
原文链接:【http://xie.infoq.cn/article/0eb035a526f273ad7fbed3707】。文章转载请联系作者。
评论