关于 HTAP 与 HSAP
作者: yifan 原文来源:https://tidb.net/blog/eade53a3
交易分析混合负载 HTAP 方兴未艾时,同时,还有一个新的概念在业界流转,即 HSAP,Hybrid Serving & Analytical processing 服务分析混合负载。
1. 概念
在讨论 HSAP 之前,首先需要了解其概念中对服务与分析的区分。相当多从应用角度对数据处理分类的划分,大致分为 Transaction 交易与 Analysis 分析两大类,一类位于企业数据架构的上游用于生产数据,一类位于企业数据架构的下游用于数据价值的利用。而 HSAP 则对位于下游的数据价值利用进行了进一步的区分:简单查询与复杂的分析查询,前者涉及的数据范围小,实质上是传统 TP 系统擅长的点查,或者简单聚合查询,后者涉及的数据范围大,需要扫描大量数据,实质上是传统 AP 系统擅长的分析类查询。在 HSAP 的概念中,将简单点查称为“数据服务”,将”复杂查询“称为“分析”,而两者的混合负载就称为 HSAP,这就是 HSAP 概念的解释。
2. HSAP 需求分析
初看起来,HSAP 的需求,HTAP 也能实现:Transaction 交易机制满足 QPS 类点查需求,Analysis 分析机制满足复杂查询需求。而在标准的 HTAP 数据库(一般是指分布式数据库,不包括那些自称是 HTAP 但实际是传统单体数据库架构的产品)中,一般都存在两套技术机制,即基于行存的交易机制与基于列存的分析机制,两者采用分离且实时一致的存储引擎,或者统一且行列混布的共享存储引擎。
但为什么又会有 HSAP 的提法呢?其核心的原因实际上来源于:HSAP 的出现是为了满足企业对“大数据”的需求。也就是说,HTAP 虽然同时满足交易类数据的分析查询需求,但对更大范围的大数据,比如来自日志等非交易系统(用户行为)的数据,则不能很好的满足。因为 HTAP 系统设计的基石和优势是支持细粒度的分布式事务,交易型数据往往以大量分布式小事务的方式写入 HTAP 系统。而来自日志等系统的数据,大多并没有分布式事务的需求,以 HTAP 系统来处理它们,显然会带来不必要的开销,从而降低了系统效能;更重要的是,这类非交易型大数据的体量,要比交易数据大的多,甚至是好几个数据级,这就带来了 HSAP 系统的另一个技术要求:动辄每秒钟数千万甚至上亿条事件的极高吞吐数据实时写入,包括海量单条与低频批量。只有能够与 HTAP 一样,实时的承载大数据 + 交易数据的写入,并在秒级甚至亚秒级就能被服务与分析所消费,而不是需要一个冗长的离线 ETL 过程,HSAP 的概念才真正有意义。
相当长一段时间以来,企业面向这种 HSAP 的需求都是采用一套复杂的技术栈组合来完成的,例如用 Flink+HBase+Hive/Druid 等等形成一个集成系统,其间不可避免的数据孤岛、数据同步、一致性等问题对开发与运维都带来了巨大的复杂性,而 HSAP 即是用一套系统来满足这种要求。
在如上讨论中,分布式是一个隐含的条件,因为弹性与扩展需求是不言而喻的,这里就不再赘述。
3. HSAP 技术特性
至此,关于 HSAP 不仅是概念清楚了,即“服务分析混合负载的分布式数据系统”,而且对其技术特性与要求也清楚了:
. HSAP 要求极高的实时数据载入吞吐量。每秒数千万、上亿甚至更高的数据载入能力,同时这些数据对服务与分析来讲必须是实时可消费(秒级、亚秒级)的;
. HSAP 要求极高并发、极高性能的简单查询能力,需要轻松支撑每秒数千万甚至上亿次简单查询,并且延迟极低;
. HSAP 要求相对高并发、极致性能的复杂分析能力。也就是说,HSAP 要具有传统 MPP 架构 OLAP 数据库(如 GP)的同等能力;
. HSAP 的上述一个特性是混合负载的,对用户来讲是一套系统实现的。
4. HSAP 与 HTAP
再来看看 HSAP 与 HTAP 的区别。本质上,HSAP 的出现,是因为在应对更大数量的非交易型大数据需求时,HTAP 中 Transaction 的分布式小事务能力,其实是不需要的,但却会带来不必要的开销。从而,HSAP 为了满足这一类的需求,对 HTAP 中的分布式小事务能力进行了妥协,从而带来了吞吐、性能的提升,这实际上是继 Hadoop 类大数据系统与分布式事务型数据库之后,CAP 理论的又一产出。
这样看来,HSAP 与 HTAP 都会成为企业数据架构中不可或缺的重要组成部分,而在应对有规模企业,特别是当互联网 / 物联网应用不断扩大时,企业分析查询对大数据有着越来越高的需求,那么这时,HSAP 就有了其更加不可或缺的作用。而对 HTAP 数据库来讲,虽然在技术实现上并不会太简单,但从本质上讲,HTAP 在对其分布式事务能力进行妥协后,应该也有同时具备 HSAP 能力的潜能。
版权声明: 本文为 InfoQ 作者【TiDB 社区干货传送门】的原创文章。
原文链接:【http://xie.infoq.cn/article/c5cfbc2625d2053d573b1f441】。文章转载请联系作者。
评论