写点什么

如何使用 GaussDB(DWS) 的本地临时表进行数据处理

  • 2023-10-17
    广东
  • 本文字数:2617 字

    阅读完需:约 9 分钟

如何使用GaussDB(DWS)的本地临时表进行数据处理

本文分享自华为云社区《GaussDB(DWS)临时表系列 - 本地临时表》,作者: acydy 。


GaussDB(DWS) 从 8.2.1 版本后支持三种形式的临时表:本地临时表、Volatile 临时表、全局临时表。本文先介绍 DWS 的本地临时表功能。


本地临时表特点:表定义和数据都是会话相关,其他会话看不到本会话创建的本地临时表。元数据会持久化到系统表,集群节点异常出错可以支持RETRY

语法与使用


CREATE [LOCAL] { TEMPORARY | TEMP } TABLE [ IF NOT EXISTS ] table_name    ({ column_name data_type [ compress_mode ] [ COLLATE collation ] [ column_constraint [ ... ] ]        | table_constraint        | LIKE source_table [ like_option [...] ] }        [, ... ])    [ WITH ( {storage_parameter = value} [, ... ] ) ]    [ ON COMMIT { PRESERVE ROWS | DELETE ROWS } ]
复制代码


建表时需要指定 TEMP 或者 TEMPORARY,表示创建本地临时表。


  • ON COMMIT { PRESERVE ROWS | DELETE ROWS }


ON COMMIT 选项决定在事务中执行创建临时表操作,当事务提交时,此临时表的后续操作。


  • PRESERVE ROWS(缺省值):提交时不对临时表做任何操作,临时表及其表数据保持不变。建议使用此种类型。

  • DELETE ROWS:提交时删除临时表中数据。


其他部分与普通表相同。


gaussdb=# create temp table tmp1(a int,b int);NOTICE:  The 'DISTRIBUTE BY' clause is not specified. Using round-robin as the distribution mode by default.HINT:  Please use 'DISTRIBUTE BY' clause to specify suitable data distribution column.CREATE TABLE
复制代码


临时表可以与非临时表同名。如果同名,优先级临时表高于非临时表。


gaussdb=# create temp table tmp1(a int,b int);NOTICE:  The 'DISTRIBUTE BY' clause is not specified. Using round-robin as the distribution mode by default.HINT:  Please use 'DISTRIBUTE BY' clause to specify suitable data distribution column.CREATE TABLEgaussdb=# insert into tmp1 values(1,1);INSERT 0 1gaussdb=# create table tmp1(a int,b int);NOTICE:  The 'DISTRIBUTE BY' clause is not specified. Using round-robin as the distribution mode by default.HINT:  Please use 'DISTRIBUTE BY' clause to specify suitable data distribution column.CREATE TABLEgaussdb=# select *from tmp1; a | b---+--- 1 | 1(1 row)
gaussdb=# select *from public.tmp1; a | b---+---(0 rows)

复制代码


视图:基于临时表创建的视图是临时视图。


postgres=# create view tmp_v1 as select *from tmp1;NOTICE:  view "tmp_v1" will be a temporary viewCREATE VIEW
复制代码

使用场景


  1. 复杂业务逻辑使用本地临时表拆分

    如果业务 SQL 语句过于复杂,可以使用本地临时表将执行的中间结果缓存下来,从而将复杂业务逻辑拆分成多个较简单语句。简单语句的统计信息更为准备,且拆分后的业务更易于维护。

  2. 支持 CN 节点出现异常。GaussDB(DWS) 是一款分布式架构的数据库。有多个 Coordinator(CN),关系对等。客户端可以连接任意一个 CN。CN 上存有表的元数据信息。在执行 DDL 时,会在所有 DN 上进行元数据的同步,保证数据一致性。如果某个 CN 出现异常,会导致创建表、删除表等操作执行失败,进而导致整个作业执行失败。

    在这种场景,可以使用本地临时表。本地临时表只在当前会话可见。执行本地临时表的创建、ALTER、删除等操作时,只会在当前 CN 进行元数据的修改。这样可以不受其他 CN 节点异常的影响,保证业务使用连续性。

原理


临时表在元数据上与普通表的区别是临时表由于在其他会话不可见,所以会建在一个只属于当前会话的 schema。本会话第一次创建临时表时会同时建立这个会话的 schema。每一个会话的临时 schema 都不同。


会话 1:


gaussdb=# create temp table tmp1(a int,b int);NOTICE:  The 'DISTRIBUTE BY' clause is not specified. Using round-robin as the distribution mode by default.HINT:  Please use 'DISTRIBUTE BY' clause to specify suitable data distribution column.CREATE TABLEgaussdb=# \d+ tmp1       Table "pg_temp_coordinator1_65_3_140257888512760.tmp1" Column |  Type   | Modifiers | Storage | Stats target | Description--------+---------+-----------+---------+--------------+------------- a      | integer |           | plain   |              | b      | integer |           | plain   |              |Has OIDs: noDistribute By: ROUND ROBINLocation Nodes: ALL DATANODESOptions: orientation=row, compression=no:
复制代码


会话 2, 查询不到 tmp1 表。


gaussdb=# select * from tmp1;ERROR:  relation "tmp1" does not existLINE 1: select * from tmp1;                      ^
复制代码


临时 schema 的命名规则:pg_temp_Coordinator 名_timelineID_全局自增 ID_threadID

Coordinator 名:CN 名称,隔离不同 CN 创建的 schema。


timelineID:在节点重启后会增加,用于判断此 schema 是否已经无效。


全局自增 ID:单个 CN 上自增 ID。同一个 CN 不用会话自增 ID 不同。


元数据:本地临时表的 relpersistence 标识是’t’。


gaussdb=# select relname, relpersistence from pg_class where relname = 'tmp1'; relname | relpersistence---------+---------------- tmp1    | t
复制代码

数据清理:


  1. 会话正常退出会话正常退出时, 本地临时表的表定义和数据都会被删除。无法再访问原来的数据。

  2. 会话异常退出或者当前 CN 或者某个 DN 节点异常时。出现异常时,节点的元数据和数据不会被立即删除。 GaussDB(DWS)依赖组件 gs_clean 工具进行本地临时表的自动定期清理。保证数据再一段周期后得到清理,防止空间持续膨胀。

CN Retry


CN Retry 功能开启时会为临时表数据记录日志,为保证数据一致性,在使用临时表时不建议切换 CN Retry 开关状态,保持使用临时表的会话中 CN Retry 开关始终处于打开状态或者关闭状态。在打开 CN Retry 时,DN 节点异常重启,临时表的数据可以保证不丢失。DN 重启后,仍可以访问之前的会话。如果希望临时表不记录日志:


set max_query_retry_times = 0;
复制代码

使用约束


  1. 如果上层应用,使用了连接池机制连接 GaussDB(DWS),在使用临时表时,强烈建议将连接归还连接池之前,将临时表主动删除,避免造成连接未断开导致的数据异常。或者使用命令DISCARD TEMP清理会话的临时表信息。

  2. 扩容时忽略本地临时表。

  3. 不支持 gs_dump 本地临时表。


点击关注,第一时间了解华为云新鲜技术~

发布于: 刚刚阅读数: 5
用户头像

提供全面深入的云计算技术干货 2020-07-14 加入

生于云,长于云,让开发者成为决定性力量

评论

发布
暂无评论
如何使用GaussDB(DWS)的本地临时表进行数据处理_数据库_华为云开发者联盟_InfoQ写作社区