柴云鹏:创新能力的培养至关重要|OceanBase 数据库大赛访谈
“从 0 到 1,打造你的数据库”, 作为国内首个分布式数据库内核开发大赛,OceanBase 数据库大赛于 5 月 10 日公布 10 强名单,2021 年大赛正式落下帷幕。
决赛的结束,也是大赛分享的开始。我们对特邀评委和参赛队伍进行了系列访谈,邀请他们来分享自己对数据库未来趋势的观点、数据库研究的心路历程以及人才培养的建议。这次我们请来了本届特邀嘉宾 —— 中国人民大学信息学院计算机科学与技术系主任柴云鹏教授,我们一起来看看他对数据库大赛的看法。
特邀嘉宾简介:柴云鹏教授,中国人民大学信息学院计算机科学与技术系主任、博士生导师、CCF 数据库专委会委员。主要研究方向为云计算资源管理、分布式大数据系统、新硬件系统优化等。
下为柴云鹏教授访谈实录:
Q:作为参赛队伍的指导老师,您对 OceanBase 数据库大赛最深刻的感受是什么?
A:这次比赛跟以前的比赛有挺大差别,应该是比较有影响力的一次比赛。第一次比赛就把计算机比较复杂的系统,尤其是数据库系统拿出来放到比赛里面,包括跟学生们交流的感受,也觉得很特别。跟以前各种计算机竞赛,偏重编程、算法的比赛完全不一样。
同时对学生实战能力的提高和锻炼,都非常有帮助。我自己也感觉非常有意思,也希望后面的同学能多参加这样的比赛。尤其我们是做系统研究的,这种比赛对学生的鼓励、推动都会非常大。
Q:您认为在校生参加数据库大赛的意义在哪?
A:这次参赛的同学大多是研究生或者即将成为研究生,人大很多同学将来可能就要从事计算机系统、数据库系统研发,他们参赛我觉得意义非常大。因为在学校里,他们在研究生阶段,就想提升自身能力,从而适应将来企业的工作环境。在这种情况下,一方面是在学校里参加科研项目进行锻炼,另一方面就是参加企业的项目,这是不可或缺的。包括一些创新能力的培养。
同时,比赛可能跟科研项目还不一样,对同学们有更大的刺激作用。就是在很短的时间内和比较公平的环境下,跟来自全国各个高校的同学在一个平台上直接去竞争,这些题目本身也很有挑战性,对同学个人来说也是和自己竞争。而且里面核心训练需要用到的东西也是计算机系统的研究、研发需要的东西,所以参加数据库大赛对他们个人成长,我觉得非常有帮助。
Q:人大团队取得了首届大赛总冠军,您认为 NoPassCET4 团队获奖的优势在哪?
A:一开始没抱那么大希望,第一次参加 OceanBase 这个比赛,真的没有想到能拿冠军,因为数据库大赛比较新颖,我们也不太了解。但回头看也有一定的可能性。
人大总体环境高度重视数据库,学生在平时也有很多积累,不管是数据库的前沿技术、还是数据库工程或者开源代码,日常他们接触的东西对参赛是有一定帮助的。我们团队的几位同学在之前的数据库研究中有一些实际数据库研发的经验,这也奠定了他们能拿一个比较好成绩的基础。
Q:您最早接触数据库是什么时候?在从事数据库研究这么多年的心路历程中,您碰到最大的难点是什么?
A:我接触数据库不算特别早,博士期间做的研究更偏向数据库下一层存储系统相关。后边来了人大之后,人大的氛围更擅长做传统数据库的研究。所以我做存储跟数据库结合比较紧密。十几年前,正是存储比较活跃的一个领域。比如新的一些硬件,像闪存,到后面的瓦记录磁盘、分区内存,就是这种存储类型的新硬件不断的涌现。我个人实际是在新硬件存储上做得比较多,做数据库的人也非常关注怎么把这些新硬件用起来。在这样的情况下,从新硬件存储作为切入点,逐渐地做数据库系统的研究越来越多。
后来逐渐拓展,除了新硬件数据库,我们也做一些分布式数据库,尤其现在流行的存在分离架构的一些分布式系统的研究和研发。还有最近一两年在做这种云原生数据库,就是做弹性伸缩云环境下的分布式数据库,加上弹性伸缩、按需分配资源这样的一些功能来提升效率,以及后面也在做一些更新的题目,数据库方面的研究越做越深入。我自己感觉挺有意思、挺有挑战的,数据库也是非常重要的一个领域。尤其最近十几年也不断有新技术加进来,加上国家高度重视,企业需求也很大,在这个领域非常值得去投入。
我们在研究过程中面临的主要难点实际上还是工程和创新之间的关系和平衡。比如很多创新性工作,可能很难放到真实的企业级数据库里面去做。因为工作量太大,对学生的要求也太高。所以很多时候只能在一些很小的系统上做。但在小系统上做,可能不管是业界朋友,还是开发者,实际上他们都不是完全认可。所以相对来说,怎么做好平衡是比较难的点。你既要学生们去做创新性工作,可初学者刚能够上手,又要求他们在更接近真实的数据库里面去落地,同时能够得到验证。这点相对来说比较困难。
Q:数据库是非常复杂的大型系统,在您看来,国产数据库有哪些机会和趋势?
A:我自己的判断是这样,数据库可以分为三个时代:第一个阶段是单机数据库时代,我们无疑是落后的。我们还在用 PG、MySQL 这样的内核或是直接买 Oracle DB2 这样的产品。然后到了分布式时代,在移动互联网的驱动下,像阿里、华为,腾讯,包括 OceanBase 这样的企业都开始做数据库。我觉得在分布式时代,跟国外的差距非常小,很多领域的设计甚至有所超出。这是国内数据库研发的一个很大进步。
现在开始进入一个新的时代,数据库的形态会发生更大的变化。比如说云原生,它可能能够解决资源利用率成本问题,能够适应每个企业不同用户的需求。然后像新硬件的技术,能够破解我们现在摩尔定律和即将终结带来的问题。AI 技术的加持,也是让系统的自适应能力更强、更加节能,更加提升软硬件的效率。这些方面使整个数据库可能会有很大的技术突破。比如说会更灵活、更松耦合、更自适应的去组合。现在所谓的 self driving 、self design 也好,有很多新的概念可能会加到数据库里面,而且陆续变成产品。
在这种新兴时代,我们国内的企业和人才实际上已经有了很好的积累。所以我相信这个时代可能会涌现出真正国际领先的一些产品和企业。在数据库领域,我们不仅仅还是跟在别人后面跑,而是应该在这个时代有领先的机会。我觉得可能很快就可以看到这个局面的到来。
Q:您认为作为在校生,未来想要从事数据库工作成为数据库开发者,现在最应该具备的核心素质是什么?与过去相比发生了什么变化?
A:这是一个非常好的问题,作为人大的老师,我们非常希望为国家培养出越来越多高端的数据库人才。实际上现在看起来是还是挺难的,需求远高于学校能够推出来的高水平数据库毕业生。比较核心的素质或者说比较难培养的点,首先是工程能力的培养,他要去真正接触很大规模的企业级数据库,把工程能力提上来,而且过程中还要各种数据库基础知识的积累。不仅仅是学一门课程,更重要的是在分析代码的时候知道数据库的原理。这种现实和理论的结合,就已经是对学生的一个高的要求。而且数据库技术上也相对比较深,里边各个模块有很多东西需要去学,这实际上是培养学生的一个难点。当然反过来,如果学生在本科高年级或研究生阶段,经过几年正确道路的训练,实际上也是培养出受到企业重视的核心数据库研发人员。
跟过去对比最大的感受是企业的产品和开源项目水平在提高,OceanBase 以及业内优秀企业水平在提升,包括学生的水平也在提升,相比以前的学生更认可数据库,更积极地去学习国外的网课,参加企业级实战培训,包括自己去看一些开源项目。所以他们的成长会更快。
还有一点就是不管是学校还是企业 ,我觉得一个很大变化就是大家都很重视论文,重视学术研究。尤其是一些顶会上的好论文,企业的人也在去看。我们学校的老师学生也会去看企业发的论文,大家的学术交流会更多,而且会很偏重实用性。觉得这个技术真的有用,企业的人也会拿这个论文去落地。现在企业当中也需要有这种看论文的习惯和能力,同时在校生也需要去做这种训练。所以感觉整体来说最大的变化就是我们国家的整体水平提升得非常快。规模上可能需求量非常大,尤其对人才方面的需求。
Q:国内其实一直很缺乏底层技术系统的数据库人才,在您看来,我们应该如何加速人才培养进程?
A:对,这是我们非常关注的问题。我个人感觉实际分几个层次,首先是在本科层次,数据库课程的水平必须提升。要向国外 CMU 这些顶尖高校学习,在本科生课程里面就要加入数据库系统的设计和开发这样一个复杂系统的课程锻炼。然后到了高年级,可能还要多元化的方式让学生参与数据库的开源项目研发,还有一些研究性工作。
包括像 OceanBase 数据库大赛,也是一种很好的形式,让学生在本科和研究生阶段的能力能够得到进一步加强。然后在博士生层面,实际是要有创新性提出数据库新方法。但是也要基于真正系统去做这个事情,培养真正高端的人才。所以至少是三个阶段,我们应该按照美国最顶尖的学校标准和要求来培养我们的学生。这样的话,可能后续就会有一大批非常高水平的数据库人才为我们国家的这个行业来输送新鲜血液。
Q:针对下一届数据库大赛,您有哪些建议和期待?以及对下一届参赛者有什么建议或鼓励?
A:首先我们非常鼓励学生们报名比赛,也希望 OceanBase 能够再多加强宣传,让更多学校、更多老师同学知道和重视,了解到这个比赛的特色和魅力。然后加入进来得到锻炼。所以整体来说我是非常的支持,也希望能够越办越好。
不同于算法类等标准比赛,数据库系统的比赛是比较复杂的,就是可能对系统提出了一个优化目标,它里边可能优化路径有很多条。有些是我们设计者一开始想到的,有些可能是没有特别想到。但可能存在技巧性的东西,影响到比赛的评判。所以这方面希望组委会后续在这方面加强。同时题目从规范性上考虑更全面一些,避免参赛者有一些小的问题,在答题过程中要进行咨询。我们跟大赛工作人员也有一些交流,相信之后会越办越好。
疫情确实打乱了比赛的节奏,导致赛时比较长。希望今年再办比赛在充分考虑疫情长时间持续的情况下,有预案把比赛办得更具有互动性,这可能是个难题,也是个现实的问题。参加比赛是非常锻炼学生的,我们也会鼓励更多的高年级本科生以及研究生都来参赛。因为他们很多在本科阶段也做过数据库研发,多少有一些经验应该还是比较感兴趣的。
关于 OceanBase 数据库大赛
「2021 OceanBase 数据库大赛」面向高校青年人才,自 2021 年 8 月开始报名,从初赛、复赛到最终总决赛历时 9 个月,吸引了国内外包括清华大学、北京大学、中国人民大学、南洋理工大学、美国哥伦比亚大学等 246 所知名高校在内的共 1179 支团队,近 2000 名数据库爱好者参赛,开创了国内分布式数据库领域产教融合的人才培养新模式。
经过总决赛激烈角逐及现场答辩,来自中国人民大学的 NoPassCET4 团队获得冠军,华东师范大学的东亚男儿、电子科技大学的 push_d_ 团队获得亚军,华东师范大学的 lying_flat、华东师范大学和青岛科技大学的 Honiitro19 团队、以及华中科技大学的两只老虎吃萝卜获得季军。
评论