写点什么

MySQL 之父,MySQL 官方,三大顶会齐赞,凭什么?

用户头像
数据君
关注
发布于: 2021 年 02 月 01 日

工作久了,人总会有种忘记初心的感觉。


相信每个人小时候都想过成为一名科学家,只不过到后来,连自己都忘了。


当一名科学家确实不容易,学术研究难,薪酬待遇还不高,如果不是真的热爱,很难走下去。


但在腾讯,你可以把学术当成工作,工作就是做学术,而且两者都可以做得很好。是的,你没有听错。


今天,腾讯云两项数据库内核技术的研究成果再次入选 SIGMOD 和 ICDE 的收录论文。*其中,SIGMOD、ICDE、VLDB 并称为国际数据库三大顶级会议。*


另外,据说在学术圈,一篇 SIGMOD 或者 ICDE 就能当副教授了?这么看的话,那我们这至少有两个副教授了


其实腾讯云数据库也是各大顶会的常客了,之前我们「AI 调参的技术优化数据库」的研究成果被 SIGMOD 收录,同时,还在 MySQL 社区上提交各种 patch,总量位列前茅,2020 年,我们荣幸举办 MySQL 之父本年第一次中国区见面会,得到了 MySQL 之父的赞许,年末还收到了 MariaDB 社区的官方感谢信(现在都还在官网上挂着


(看看 MySQL 之父怎么说)


那么,这次又是什么成果能俘获顶会专家学者的“芳心”?我们直接上干货:


成功入选 2021 年 SIGMOD 研究类长文的论文主题为“Spitfire:A Three-Tier Buffer Manager for Volatile and Non-Volatile Memory”。


在这篇论文中,腾讯云原生数据库内核团队首次提出了多级缓冲管理器 Spitfire 的概念,通过一种新颖、低代价且有效的热数据识别方法,将热数据页面保持在 DRAM 缓存中,同时将暖数据保存在非易失存储 NVM 中,有效提升了系统整体性能与性价比。


Spitfire 重点研究了页面迁移策略,这些策略决定了一个数据页面应该被放置在哪一层,比如,一个页面应该从 SSD 载入 NVM 还是 DRAM,一个 DRAM 层页面被驱逐出去后,应该写入 NVM 还是写入 SSD。Spitfire 引入了基于概率的页面迁移策略框架,并囊括了所有三级缓存架构的页面迁移策略。


论文指出,对于不同的存储硬件和工作负载,最优策略可能不一样。鉴于此,鹅厂小伙伴们提出了一种基于模拟退火的机器学习技术,用于针对任意工作负载和存储层次结构自动调整页面迁移策略。


不仅如此, Spitfire 利用了 NVM 按字节寻址和持久性特性,能够直接读写 NVM 页面数据或者容纳来自 DRAM 层的脏页,而不需要将它们刷入 SSD,能够有效降低页面刷脏的数据库恢复协议代价,特别适合写频繁的工作负载。


这项成果目前在 TDSQL-C(原 CynosDB)得到了验证与实现。TDSQL-C(原 CynosDB)是腾讯自研云原生关系型数据库,100%兼容 MySQL 和 PostgreSQL,极致计算能力突破千核,存储容量达 PB 级别。


SIGMOD 评审委员会评价称:随着商用非易失存储 NVM 硬件的出现,数据库如何管理包含 NVM 的多层级内存缓冲区成为了重要的研究课题。文中阐述的 Spitfire 是一种在包含 DRAM 和 NVM 的数据库系统中管理缓冲区的创新方法。此外,文章还进行了包含 NVM 硬件的数据库系统架构性价比方面的研究和建议,这些均是此前的研究工作尚未充分涉及到的。


该项研究成果与佐治亚理工学院 Joy Arulraj 教授等作者共同完成,其中 Joy Arulraj 教授是 NVM 数据库研究领域的知名学者。


这已经不是鹅厂第一次登上 SIGMOD 会议。


此前腾讯云原生数据库团队就曾与华中科技大学合作,在 SIGMOD19 上发布论文 《An End-to-End Automatic Cloud Database Tuning System Using Deep Reinforcement Learning》,实现了基于 AI 技术的数据库性能调优结果首次全面超越数据库专家。


SIGMOD 目前是数据库领域具有最高学术地位的国际性学术会议,位列数据库方向顶级会议之首。


说完 SIGMOD,再来说 ICDE。


这次,腾讯云原生数据库团队与中国科学技术大学合作的最新研究成果也入选了数据库顶级会议 ICDE2021。


入选论文题目为“TLBtree:A Read/Write-Optimized Tree Index for Non-Volatile Memory”。


此项研究在非易失内存上创新提出了一种读写兼优的数据结构,作为数据库内核存储引擎中的索引结构,其读写性能大幅超越前沿的同等索引结构。


目前,在 NVM 上使用最频繁索引结构是基于 B+树的,而已有的 NVM B+树索引技术都存在一个读写权衡的问题,要么是专门优化读性能,要么优化写性能,同一种技术往往无法做到兼顾读写性能。而且由于目前 NVM 的硬件写带宽较低,NVM 数据持久化代价较高,这种读写权衡就会越发明显。因此,设计一种在 NVM 上读写兼优的 NVM 索引结构成为重要的研究目标。



根据树型索引的读写访问模式以及真实 NVM 设备特性,本文提出了两层持久性 B+树架构。如上图所示,它将索引分为上下两层(读优化的上层和 NVM 写优化的下层),从而解耦了读写优化技术,让完全不同的优化技术可以共存在同一个索引结构中,达到多维度优化要求。


基于此架构下,本文设计了 TLBtree,一种读写优化的两层索引,并给出了其并发版本。


TLBtree 的上层是一个读优化的多叉完全树,采用无指针结构,所有结点存储在连续数组空间中。TLBtree 的下层是针对 NVM 设计的写优化树型结构,它能够有效地减少对 NVM 的写代价,而且无需 WAL 即能保证持久性和崩溃一致性。TLBtree 的并发版本采用无阻塞读的并发机制,能够有效的减少多进程情况下的读写冲突。


ICDE 评审委员会认为,该论文关于组合多种数据结构实现读写兼优 NVM 索引结构设计思路非常新颖,这一概念具有广阔的前景。同时,文章对该设计进行了清晰而明确的表述,相应的实验结果也得到了充分的验证,读者可以从文中获取到许多有价值的信息。


数据库作为和操作系统并列的三大基础软件,重要性不言而喻。


腾讯云近年来加大了基础架构领域的前沿技术研究,通过与顶级高校和研究机构“产学研”一体的合作方式,将技术研究成果转换为应用落地,持续输出产品和业务场景。


华中科技大学-腾讯公司智能云存储技术联合研究中心是代表之一。该联合研究中心于 2018 年成立,在数据库自治理、分布式存储技术、高性能存储引擎、业务负载预测等方面开展技术的联合攻关,突破超大规模 IaaS 服务的诸多技术难题,推动智能数据库和存储技术的科技创新及技术应用落地。


截至目前,基于联合实验室平台,双方已经在 SIGMOD、DAC、USENIX AIC 等国际顶会联合发表 21 篇高质量论文,联合输出创新技术专利 14 余项。


原有的 CynosDB、TDSQL、TBase 三大产品线将统一升级为“腾讯云企业级分布式数据库 TDSQL”后,腾讯云数据库已经有了涵盖云原生、分布式、分析型等多引擎融合的完整数据库产品体系。而在全新数据库品牌体系下,我们也将进一步深度融合数据库技术和云计算技术,充分释放领先技术的红利,助力客户业务发展。


\- End -



AI 调参新纪元,腾讯数据库论文被 SIGMOD 收录



今天,我们和人民大学一起干了件大事!


发布于: 2021 年 02 月 01 日阅读数: 34
用户头像

数据君

关注

还未添加个人签名 2020.11.05 加入

还未添加个人简介

评论

发布
暂无评论
MySQL之父,MySQL官方,三大顶会齐赞,凭什么?