Trino 应用 Iceberg Catalog 写入数据原理分析

2021 年 12 月 26 日
本文字数：1109 字
阅读完需：约 4 分钟

Trino 在 Iceberg Catalog 下创建表后（https://xie.infoq.cn/article/e4c245a0e260d1ebf0b29c592），再

来分析 trino 写入 Iceberg 的过程，写入过程分为三个阶段：获取表，写入数据文件，提交元数据。

trino insert 数据的执行计划：

数据写入的执行过程有三个 stage，Fragment2 是待写入数据集处理器 ValuesOperator，Fragment1 是生成数据文件的阶段，使用 TableWriterOperator 将数据写到存储系统上，并统计数据信息，传递给 Fragment0，Fragment0 是最后提交写入数据的元数据文件，使用 TableFinishOperator 完成提交事务。

关键流程：

获取表流程

获取表的过程最重要的一步是从存储系统中刷新最新版本的元数据文件和快照。

关键代码：

	//从hms拿到hive表对象				Optional<Table> hiveTable = metastore.getTable(new HiveIdentity(session), tableName.getSchemaName(), name.getTableName());        if (hiveTable.isEmpty()) {            return null;        }        if (isMaterializedView(hiveTable.get())) {            return null;        }        if (!isIcebergTable(hiveTable.get())) {            throw new UnknownTableTypeException(tableName);        }				//通过metadata location读取iceberg表元数据和当前snapshotId        org.apache.iceberg.Table table = getIcebergTable(session, hiveTable.get().getSchemaTableName());        Optional<Long> snapshotId = getSnapshotId(table, name.getSnapshotId());
        return new IcebergTableHandle(                tableName.getSchemaName(),                name.getTableName(),                name.getTableType(),                snapshotId,                TupleDomain.all(),                TupleDomain.all());