写点什么

为什么使用图进行关联运算比表 Join 更具吸引力?

  • 2023-09-12
    浙江
  • 本文字数:1744 字

    阅读完需:约 6 分钟

为什么使用图进行关联运算比表Join更具吸引力?

GeaFlow(品牌名 TuGraph-Analytics) 已正式开源,欢迎大家关注!!! 欢迎给我们 Star 哦! GitHub👉https://github.com/TuGraph-family/tugraph-analytics更多精彩内容,关注我们的博客 https://geaflow.github.io/



作者:TuGraph

关系模型并不适合处理关系

关系模型被广泛应用于数据库和数仓等数据处理系统的数据建模,然而名称里带有关系一词的模型却并不适合处理关系


在关系模型所用的表结构建模下,关系的运算通过 Join 运算来处理。但在实际使用中,特别是在流式更新的数据中,这种方式存在诸多痛点。

痛点一:关系运算成本高

表模型的重点在于多条记录统一描述为表,但本身缺乏关系描述能力,只能通过 Join 运算来完成关系的计算


无论是在批或流的计算系统中,Join 操作都涉及大量 shuffle 和计算开销。同时,Join 产生的中间结果由于关联会放大多份,造成数据量指数级膨胀和冗余,存储消耗大。


在下图的实验中,我们模拟了依次执行一跳、两跳和三跳关系运算的场景。足以见得,越是复杂的多跳关系计算,关系模型中 Join 的性能表现越差。在总时间对比中,利用图的 Match 计算能够节约超过 90%的耗时。



<center>图 1</center>

痛点二:数据冗余,时效性低

在很多数仓分析的场景中,为了提高数据查询性能,往往将多张表提前物化成一张大宽表。


大宽表虽然可以加速查询性能,然而其数据膨胀和冗余非常严重。由于表与表之间一对多的关联关系,导致一张表的数据通过关联会放大多份,造成数据量指数级膨胀和冗余。


而且宽表一经生成就难以更改,否则需要重新生成新宽表,费时费力,不够灵活。


此时利用图模型建模,可以轻易解决这个问题。 图是对关系的一种天然描述,以点代表实体,以边代表关系。


比如在人际关系图里面,每一个人可以用一个点来表示,人和人之间的关系通过边来表示,人与人之间可以存在各种各样的复杂关系,这些关系都可以通过不同的边来表示。


显然,构造图的过程本质上是对事物之间关系的提炼,在数据存储层面实质是对关系做了物化,以获取更好的关联计算性能


相比宽表的关系物化方式,由于图结构本身的点边聚合性,构图表现得十分节约。 下图是 GeaFlow 中高性能构图的表现,可见构图操作本身极为迅速,且由于图可以分片的特性,具有十分良好的可扩展性。



<center>图 2</center>


在图一的实验中也可以发现,实质上我们用少量的插入图(青色的 insert to graph 部分开销)耗时,换取了图建模方式对之后关联查询的加速效果。

痛点三:复杂关系查询难以描述

使用表建模的分析系统只支持 SQL join 一种方式进行关系分析,这在复杂场景中能力十分局限。 比如查询一个人 4 度以内所有好友,或者查询最短路径等,这些复杂关联关系通过 SQL 表的 join 方式很难描述。


GeaFlow 提供融合 GQL 和 SQL 样式的查询语言,这是一种图表一体的数据分析语言,继承自标准 SQL+ISO/GQL,可以方便进行图表分析。



<center>图 3</center>


**在融合 DSL 中,图计算的结果与表查询等价,都可以像表数据一样做关系运算处理。**这意味着图 3 中 GQL 和 SQL 两种描述都可以达到类似的效果,极大灵活了用户的查询表达能力。


GeaFlow DSL 引擎层还将支持 SQL 中的 Join 自动转化为 GQL 执行,用户可以自由混用 SQL 和 GQL 样式查询,同时做图匹配、图算法和表查询。

流图计算引擎 TuGraph-Analytics

GeaFlow(品牌名 TuGraph-Analytics)是蚂蚁集团开源的分布式流式图计算引擎。在蚂蚁内部,目前已广泛应用于数仓加速、金融风控、知识图谱以及社交网络等大量场景。


TuGraph-Analytics 已经于 2023 年 6 月正式对外开源,开放其以图为数据模型的流批一体计算核心能力。相比传统的流式计算引擎,如 Flink、Storm 这些以表为模型的实时处理系统,GeaFlow 以自研图存储为底座,流批一体计算引擎为矛,融合 GQL/SQL DSL 语言为旗帜,在复杂多度的关系运算上具备极大的优势。



<center>图 4</center>


图 4 展示了 GeaFlow 使用 Match 算子在图上进行多跳关联查询,相比 Flink 的 Join 算子带来的实时吞吐提升。在复杂多跳场景下,现有的流式计算引擎已经基本不能胜任实时处理。而图模型的存在,则突破这一限制,扩展了实时流计算的应用场景。



GeaFlow(品牌名 TuGraph-Analytics) 已正式开源,欢迎大家关注!!!


欢迎给我们 Star 哦!


Welcome to give us a Star!


GitHub👉https://github.com/TuGraph-family/tugraph-analytics


更多精彩内容,关注我们的博客 https://geaflow.github.io/

用户头像

欢迎访问:geaflow.github.io 2023-07-05 加入

GeaFlow(品牌名TuGraph-Analytics) 是一个分布式流图计算引擎 欢迎给我们 Star 哦! GitHub👉github.com/TuGraph-family/tugraph-analytics 更多精彩内容,关注我们的博客geaflow.github.io

评论

发布
暂无评论
为什么使用图进行关联运算比表Join更具吸引力?_sql_TuGraph-Analytics(GeaFlow)_InfoQ写作社区