TuGraph Analytics 图数据集成:表到图的最后一公里
作者:廖梵抒
图数据集成
小伙伴们想玩一玩图计算,数据的导入工作总是绕不开的一个环节。为了降低大家数据导入操作的成本,提升图计算的整体使用体验,TuGraph Analytics 推出了“图数据集成”能力,帮助大家通过简单配置完成数据导入工作。
要实现图上的数据处理,可大致分为三个阶段:
数据准备:准备图的点边的原始数据。如文件(CSV/JSON)、Hive 表、Kafka 消息队列等数据源。
数据导入:将原始的表结构数据(结构化/半结构化)格式化成图结构写入图引擎。一般采用编写 SQL 或基于引擎 API 开发数据导入任务。
数据分析:基于图引擎对已经导入的图格式数据分析处理。一般使用 GQL、Gremlin、Cypher 等图分析语言处理,复杂的图算法(图上的迭代、采用、推理等)可能需要用户自己开发 UDF。(Java/Python)
因此,实现图上的数据分析的前置动作便是图数据导入,简称“构图”。这里我们使用“图数据集成”的说法,是沿用了传统数据仓库里“数据集成”的概念。
TuGraph Analytics 可以通过编写 SQL 代码实现高效的数据导入到图的能力。但当数据源头和表字段过多时,编写出来的 DSL 代码往往非常冗长,而且用户手动编写的代码容易出现插入的字段映射错位、数量不匹配等问题。为此,TuGraph Analytics 的 Console 平台为用户提供了到图的一键“数据集成”功能,允许用户可在界面中选择输入表和对应的目标点边,平台会自动化生成对应的 DSL 代码,实现图数据导入,避免了大量冗长的代码的编写和校对工作。
任务设计
类似传统数据库表的 INSERT 操作,图数据集成则是向图的点边表插入数据。图中的点边也是一种表结构,每个点边都有相应的属性(对应表结构中的字段),并可以与数据源的表字段一一映射。所以可以通过给定外部输入表和目标点边的映射关系来描述图数据集成任务。
图数据集成任务维护了用户填写的输入表到图的目标点边的映射关系。映射关系结构为 StructMapping 的数组,每个 StructMapping 包含了表名、图名、和对应的字段映射项列表。
任务发布阶段,根据映射关系生成相应的构图 dsl 代码。代码生成主要使用 Velocity 模板引擎框架,其模板如下:
映射关系需满足如下约束:
一个目标点或边的数据只能来自一个输入表,而一个输入表可以写入多个点边。
输入表字段类型和目标点边字段类型需要相同。
目标点边上的 meta 字段(点 id,边 srcId, 边 targetId 等)必须插入。
Demo 演示
本示例中以下图为例,图中有 2 种点 person 和 software,以及 2 种边 knows 和 creates。
创建点
在界面中创建 person 和 software 点的 schema。
创建边
在界面中创建 creates 和 knows 边的 schema。
创建图
界面中勾选图所需的点边,创建图的 schema, 类型设置为“ROCKSDB”。
创建输入表
在界面中创建输入表 t_person、t_software、t_creates、t_knows,参数配置中填写对应的文件路径,以 t_person 为例:
测试数据:
创建集成任务
在新增图任务中,任务类型选择"集成",并选择对应的目标图,即自动生成待插入的所有目标点边和字段项。(可根据需求删除不需要插入的目标点边或字段)
只需在左侧选择每个点边对应的输入表,即可自动填充映射字段。
所有输入表选择完成后,所有表到目标点边的映射项都填充完成,点击"提交"即可创建集成任务。
提交作业
任务发布为作业后,可在作业详情界面看到自动生成的构图 DSL 代码,点击提交执行图数据集成作业。
查看结果
创建相应的图查询任务,详细见《TuGraph Analytics交互式图查询:让图所见即所得》,运行后进入查询界面,即可查询到所构图的数据。
欢迎关注我们的 GitHub 仓库:https://github.com/TuGraph-family/tugraph-analytics
评论