sql 执行顺序优化
SQL 不同于与其他编程语言的最明显特征是处理代码的顺序。在大数编程语言中,代码按编码顺序被处理,但是在 SQL 语言中,第一个被处理的子句是 FROM 子句,尽管 SELECT 语句第一个出现,但是几乎总是最后被处理。
每个步骤都会产生一个虚拟表,该虚拟表被用作下一个步骤的输入。这些虚拟表对调用者(客户端应用程序或者外部查询)不可用。只是最后一步生成的表才会返回 给调用者。如果没有在查询中指定某一子句,将跳过相应的步骤。下面是对应用于 SQL server 2000 和 SQL Server 2005 的各个逻辑步骤的简单描述。
逻辑查询处理阶段简介
1. FROM:对 FROM 子句中的前两个表执行笛卡尔积(Cartesian product)(交叉联接),生成虚拟表 VT1
2. ON:对 VT1 应用 ON 筛选器。只有那些使<join_condition>为真的行才被插入 VT2。
3. OUTER(JOIN):如果指定了 OUTER JOIN(相对于 CROSS JOIN 或(INNER JOIN),保留表(preserved table:左外部联接把左表标记为保留表,右外部联接把右表标记为保留表,完全外部联接把两个表都标记为保留表)中未找到匹配的行将作为外部行添加到 VT2,生成 VT3.如果 FROM 子句包含两个以上的表,则对上一个联接生成的结果表和下一个表重复执行步骤 1 到步骤 3,直到处理完所有的表为止。
4. WHERE:对 VT3 应用 WHERE 筛选器。只有使<where_condition>为 true 的行才被插入 VT4.
5. GROUP BY:按 GROUP BY 子句中的列列表对 VT4 中的行分组,生成 VT5.
6. CUBE|ROLLUP:把超组(Suppergroups)插入 VT5,生成 VT6.
7. HAVING:对 VT6 应用 HAVING 筛选器。只有使<having_condition>为 true 的组才会被插入 VT7.
8. SELECT:处理 SELECT 列表,产生 VT8.
9. DISTINCT:将重复的行从 VT8 中移除,产生 VT9.
10. ORDER BY:将 VT9 中的行按 ORDER BY 子句中的列列表排序,生成游标(VC10).
11. TOP:从 VC10 的开始处选择指定数量或比例的行,生成表 VT11,并返回调用者。
注:步骤 10,按 ORDER BY 子句中的列列表排序上步返回的行,返回游标 VC10.这一步是第一步也是唯一一步可以使用 SELECT 列表中的列别名的步骤。这一步不同于其它步骤的 是,它不返回有效的表,而是返回一个游标。SQL 是基于集合理论的。集合不会预先对它的行排序,它只是成员的逻辑集合,成员的顺序无关紧要。对表进行排序 的查询可以返回一个对象,包含按特定物理顺序组织的行。ANSI 把这种对象称为游标。理解这一步是正确理解 SQL 的基础。
因为这一步不返回表(而是返回游标),使用了 ORDER BY 子句的查询不能用作表表达式。表表达式包括:视图、内联表值函数、子查询、派生表和共用表达式。它的结果必须返回给期望得到物理记录的客户端应用程序。例如,下面的派生表查询无效,并产生一个错误:
在 SQL 中,表表达式中不允许使用带有 ORDER BY 子句的查询,而在 T—SQL 中却有一个例外(应用 TOP 选项)。
所以要记住,不要为表中的行假设任何特定的顺序。换句话说,除非你确定要有序行,否则不要指定 ORDER BY 子句。排序是需要成本的,SQL Server 需要执行有序索引扫描或使用排序运行符。
版权声明: 本文为 InfoQ 作者【大数据技术指南】的原创文章。
原文链接:【http://xie.infoq.cn/article/63f48531763f0043d1beefa84】。
本文遵守【CC-BY 4.0】协议,转载请保留原文出处及本版权声明。
评论