【Meetup 回顾第 1 期】竟是这样的国产数据库,YashanDB 技术内幕曝光
4 月 1 日,由深圳计算科学研究院崖山数据库系统 YashanDB 团队策划的第 1 期技术 Meetup【崖山论“见”】于线下顺利举办。YashanDB 研发总监欧伟杰博士带来了《开门见山|崖山数据库系统有啥不一样》的精彩分享,以下为活动回顾。
YashanDB:面向混合负载的创新架构
YashanDB 是一款基于统一内核,支持单机/主备、共享集群、分布式等多种部署方式,覆盖 OLTP/HTAP/OLAP 交易和分析混合负载场景的新型数据库系统;YashanDB 同时提供开发平台、运维平台和迁移平台 3 大工具平台以满足数据全生命周期管理。
“YashanDB 架构设计并不存在万能的‘银弹’,而是取长补短的权衡。”欧伟杰表示。为了真正满足业务混合负载的诉求,在数据组织上,YashanDB 基于统一事务引擎,既有支持高并发事务处理的行存储,也有支持数据实时与海量数据交互分析的列存储;在计算能力上,YashanDB 结合经典火山模型和原生向量化执行引擎,既能高效地逐行处理支持点操作,也能利用批量处理模式为复杂查询和海量数据查询找到最优解;另基于一套优化器机制可实现 SMP 算子内并行以及 MPP 分布式并行,突破了单线程和单节点的计算瓶颈。
多种技术方案满足多元场景应用
无论是核心替“O”场景,还是面向互联网业务的增量创新场景,都会对数据库产品提出不同维度的诉求。YashanDB 通过多种不同的创新技术方案,赋能多元场景应用。
● 场景一:新型实时应用。大多数的中小型企业业务本身数据量不大,通常在 10TB 以内,一般他们会采用门槛更低、成本更低的单机部署方式。不过业务变化更新快,快速变化的数据需实时分析, YashanDB 采用可更新列存的方案既可支持低时延的 TP 应用,也可以实现 AP 查询;该方案的技术难点在于资源的隔离与调度,即在做复杂查询时是否有足够资源进行事务操作,YashanDB 则通过会话优先级策略实现了良好的资源隔离效果。
● 场景二:在线交易和周期性复杂查询。相较于场景一,该场景的负载会更高,除了支撑高负载的 TP 场景,也会有定期的周结、月结等分析诉求。该场景推荐使用 YashanDB 的行存配合查询加速方案,通过行存存储,并配合使用列式索引、物化模型、独特的有界查询约束等技术实现查询性能的提升。
● 场景三:在线交易和实时分析。当业务进一步扩大,数据量变大,通常采用分布式架构来承载,业务需要将生产系统中的数据进行实时分析处理, YashanDB 通过透明路由,采用独立节点作为行存的列副本,实现面向行存储的高通量交易能力以及面向列式向量化计算的分析能力,并保证两者之间的资源是隔离、不受影响的。
● 场景四:操作性数据和实时历史归档分析。此时,业务分析的数据不局限于当前的热数据,还包含大量的历史归档数据。YashanDB 在该场景下将组合上述提及的三种数据组织方式,高通量交易场景采用行存储,分析场景提供可变更的列式存储和稳态海量数据存储,并支持冷热数据策略的灵活定制。该方案通过一套简单的数据库系统即可有效地解决过去多套系统开发运维成本大、数据口径不一致等问题。
未来技术规划
当前 YashanDB 已具备基本能力,面向未来新概念、新场景的需求,YashanDB 将持续在数据模型、查询优化和计算资源调度等多个方向发力,如通过统一融合查询满足多种数据模型的诉求,借力 ML 能力优化查询,面向混合负载探索语句级细粒度调度实现计算资源按需分配等,在自研内核基础上不断完善企业级能力,充分释放数据价值。
评论