镜舟:打造行业顶级国产 OLAP 数据库
数据库是主要的软件载体,在 IT 基础设施架构中处于核心位置,与操作系统、中间件共同构成计算机系统最基础的三大核心软件。随着数字经济时代到来,数据量爆炸式扩张,国产化替代加速,国产数据库正迎来政策红利和巨大的发展机遇,数据库产品也正经历新一轮变革。
随着 5G、云计算、大数据、 AI 等技术的发展,全球数据量呈现爆发式增长。到 2025 年,全球的数据量能将达到 175ZB(Zettabyte),其中近 30% 的数据需要被实时处理。 2019 年到 2025 年,CAGR(平均年复合增长率)达到了近 30%。
IDC 预计 2024 年,中国分析型数据库的整体市场将达到 521.4 亿元,复合增长率为 27.7%。
(数据来源:IDC、爱分析测算)
目前,国产数据库已经逐步从“可用”步入“好用”阶段,在政务、金融、制造、互联网等行业都得到了大规模的应用。镜舟数据库抓住了国产数据库发展的机遇与信创浪潮,乘风而上,不断革新,在技术支持、解决方案、生态建设、售后保障等方面达到了企业级客户的要求。做到了真正的“自主可控,稳定易用”,助力国产数据库的迭代与发展。
总的来说,镜舟数据库有以下三大优势:
第一,具有“极速统一”和“稳定易用”的特性。镜舟数据库提供了金融级的高可用性,元数据和物理数据以多副本的形式进行存储,保证元数据多数派节点可用。当节点发生故障时会自动在可用节点上补⻬副本,确保集群稳定性。用户可以按需配置副本的地理位置、数量等策略以满足不同的容灾级别要求,确保在线业务的稳定可用。
第二,国内生态完善。镜舟已与大数据解决方案的生态上下游,包括兆芯、鲲鹏、海光、飞腾、统信、帆软、奥威、永洪、思迈特等生态企业完成产品兼容互认证,覆盖从芯片、服务器、操作系统到 BI 的多款产品。在与多方的适配测评中,镜舟数据库均顺利完成安装,展现出良好的兼容性,同时产品整体运行稳定,性能表现优异,能够满足用户的核心需求。
第三,研发上自主可控。镜舟的研发团队,绝大多数都曾负责过行业头部企业级数据库的建设,拥有顶尖的技术和丰富的经验,团队和产品实力都已经经历了 200 多家头部客户的打磨,落地成效卓越。同时,镜舟也拥有完备的售后 DBA 团队,可以做到 7*24 小时全天候应急响应。全国在六地有研发中心和知识中心,如客户有特殊需求,我们可派专家到现场保驾护航。
接下来,我们将从产品力和客户成功两个方面详细介绍镜舟数据库。
从 StarRocks 到镜舟,持续迭代升级的产品力
基于现存数据库的种种痛点,镜舟数据库引入 StarRocks 的理念,实现 OLAP 分层引擎的统一,与原有架构大致相同,数据通过上游的多种数据源和采集工具写入 Kafka 中,在 Flink 中进行 ETL 的转换,再实时写入到 StarRocks 中。在 StarRocks 中,我们可以使用宽星型(宽表及星型)或者预聚合模型灵活的做业务建模。
StarRocks 在大数据生态中的定位非常清晰,是一款 MPP 架构的分析型数据库。StarRocks 能够支撑 PB 级别的数据量,拥有灵活的建模方式,可以通过向量化引擎、物化视图、位图索引、稀疏索引等优化手段,去建立极速统一的分析层数据存储系统。
从社区来看,StarRocks 产品在近一两年之内取得了不少成就:GitHub 的星数达到了 4100 多, PR 数近 13000,社区的参与者超过了 7000 人,社区的贡献者超过了 200 人。到目前为止,通过企业客户或者用户在使用过程中的一些推荐,获得了 200 多家 10 亿美金级以上大企业的应用。
镜舟是基于 StarRocks 开发的闭源商业化产品,产品成立在 2022 年 9 月,运营的主体是北京镜舟科技有限公司。我们的产品是基于 StarRocks 开发的商业化产品,研发过程中用到 StarRocks 开源代码,也有自身闭源的部分,在技术支持、解决方案、生态建设、售后保障等方面达到了企业级客户的要求。“镜舟”这个名字,来源于这样一个期待:以人为镜,以梦为舟,不负韶华,未来可期。
镜舟数据库在功能和技术支持层面,相对于 StarRocks 开源产品要丰富得多,可以从以下几个维度展开:
1.1 镜舟数据库产品特性
极速全场景分析引擎,实时查询返回
镜舟数据库采用 MPP 分布式执行框架,从而使单个查询的性能可以随集群的水平扩展而不断提升。同时,全面向量化执行引擎也充分发挥了 CPU 的处理能力,通过全面向量化引擎,镜舟数据库将查询性能整体提升了 3—10 倍。
此外,镜舟数据库自研的 CBO 针对自有的全面向量化执行引擎进行了深度定制和创新,使镜舟数据库能比同类产品更好地支持多表关联查询,特别是复杂的多表关联查询,让全面向量化引擎能够发挥极致的性能。
流批一体,实时数据更新
镜舟数据库能够支持秒级的导入延迟,提供准实时的服务能力。Apache Kafka、Apache Flink、HDFS 等数据源均可平滑导入。通过主键模型,用户可以在不牺牲查询性能的前提下,对数据执行高效地 UPSERT 类操作。目前已经广泛应用于订单状态更新、TP 数据库同步、多流 join 写入宽表等场景。聚合表和智能物化视图可以在数据导入时实时完成数据更新计算,无需额外维护。在查询时,镜舟数据库能够自动将查询改写至适当的物化视图来加速查询,无需额外声明。
丰富的大数据生态,湖仓一体
镜舟数据库通过灵活的元数据缓存及同步机制,充分利用向量化引擎的优势,作为数据湖的实时查询引擎,可提供极速、实时的数据湖分析体验。此外,还支持联邦查询,可无缝同步外部 catalog,包括 Hive、Iceberg、Hudi、Delta lake 的外表,实现离线和实时的统一、湖和仓的联邦分析,满足跨引擎查询的功能。在生态对接上,镜舟数据库支持标准 SQL,兼容 MySQL 协议,适配各类主流 BI 工具。
架构简单,运维便捷
镜舟数据库的架构非常简洁,整个系统的核心只有 FE、BE 两类进程,不依赖任何外部组件。同时,FE 节点与 BE 节点均支持在线水平扩缩容,帮助用户降低使用成本。扩容过程中数据自动在节点之间均衡,无需人工干预,避免了复杂的维护过程。通过资源隔离的功能,让用户能够更加高效、合理地分配和利用集群资源。
同时,镜舟数据库还提供了 Mirrorship Manager 可视化管理平台,可以帮助用户通过 web 界面一键完成集群部署升级、数据迁移、告警及监控配置,大幅度降低了集群的维护成本。同时提供交互式查询界面、可视化查询执行分析、慢查询诊断等功能。
性能是数据库的关键,基于业内最权威的测试集合 SSB、TPC-H、TPC-DS 等,我们将 StarRocks 与 Clickhouse、Druid、Trino、Snowflake 等产品进行了对比测试,StarRocks 的性能水平远超竞品,是同类型产品的 3 倍到 8 倍,也正是因为有这样的极致性能,收获了比较好的市场口碑、比较多的用户认可。
1.2 镜舟数据库行业解决方案
所谓国产数据库的破局,其实就是扩展国产数据库的市场份额,让中国的企业都用上自主研发的数据库。那么镜舟数据库是以怎样的视角来面向中国的各个行业并提出解决方案呢?基于数据分析 SDAF 方法论,我们可以用来阐述以数据为中心来驱动业务发展的场景覆盖能力。分成四个阶段:
第一个阶段是业务感知(Sense):这是企业在做数据运营或者说 OLAP 数仓选型过程中所要解决的。首先要去分析和洞察,我到底要选择什么样业务或场景来去应用这样一个技术。
第二个阶段是策略制定(Decision):把指标集定义出来。
第三个阶段是精准行动(Action):如实时分析、营销中的精准触达等需求。我们会选择一定的数据集去测试。
最后是反馈迭代(Feedback):根据测试结果去做一些反馈和迭代,从而建立完整的商业和业务闭环。
借助镜舟团队以及和客户一起打磨出来的经验,主要洞察了这八个行业:金融、零售、制造、物流、电商、游戏、汽车出行和一些其他的泛互联网客户。
本文中,我们主要分析一下镜舟数据库是如何助力国内的金融、物流、制造、汽车这四个行业的。金融行业:镜舟数据库以强大的实时导入和分析的能力,可灵活应对实时和离线分析的复杂场景,全面助力银行、基金、保险、证券等企业用户,在固定报表、用户画像、稽核审计、风控管理等业务场景极速化升级、全面完善金融机构数据系统的构建。
物流行业:在物流行业,运单场景是最典型的场景。基于对时效的需求,物流延伸出“限时达、当日递、次晨达、次日递”等多种类型,物流企业对实时化分析的要求越来越高,而原有平台架构的查询性能并不能跟上需求。镜舟数据库提供极速查询性能,并能够统一 OLAP 分析层,部署运维简单上手容易。在 OLAP 多维分析平台工具的实际服务中,实时体验和灵活分析成为镜舟数据库最大的亮点。
制造行业:制造企业数据孤岛问题严重,镜舟数据库提供多种导入方式,并支持以外表方式对多源数据进行联邦查询,高效对接多域多系统数据,同时支持离线与实时分析,实现 OLAP 查询引擎的统一,覆盖自助 BI 平台、质量实时追溯场景,实现数据价值最大化。
汽车行业:智能汽车是集环境感知、规划决策、多等级辅助驾驶等功能于一体的综合系统,其中最为典型的是 IoT + 互联网场景。在业务决策中,除了会产生各种业务系统的数据、APP 埋点数据外,还需要考虑汽车使用过程中传感器产生的海量时序信号数据。依赖镜舟数据库强大的 OLAP 分析能力,可满足汽车售后维护、OTA 升级、车辆的健康状况检测、早期预警以及维修保养等各种需求。
1.3 产品资质、荣誉与客户代表
目前镜舟已经与头部国产芯片、操作系统、BI 产品等厂商完成了产品兼容认证,同时也基于自主研发申请了专利。由于产品竞争力强、客户覆盖多, 产品及客户案例多次入选行业头部奖项及报告。
目前总共有 200 多家 10 亿美金级以上的客户,覆盖了主流的互联公司,阿里、腾讯的全系、京东、小米、美团、小红书等等,也包含垂类的游戏、电商、物流、教育、金融、制造、零售等行业头部企业,以下是列举。
3. 镜舟生态战略布局与客户成功体系
3.1 全面的生态战略布局
我们与全球云计算领导者亚马逊云、阿里云、腾讯云,以及行业领先的合作伙伴达成战略合作,共同打造解决方案,兼容适配超 10 家上下游产品。基于更开源开放的生态,在社区共建、产品上下游协同以及本地化服务上和伙伴共谋发展,以不断优化的性能和技术、更极致的产品体验服务用户、回馈用户。
3.2 四位一体的企业级客户成功体系
我们客户成功团队分成售后 DBA 团队、解决方案中心和客户成功经理团队,他们与产研团队形成非常好的双轮驱动和配合。建设四位一体的客户成功体系,其目的就是通过专业的服务,让客户更好地基于我们的技术和产品持续创造业务价值,成就客户,实现共赢。
通过四位一体的客户成功体系,我们也能获得客户最一线的需求,从而推进产品不断升级。到目前为止,我们所有的产品 feature,都是通过市场和客户获得需求之后研发出来的。同时,这些 feature 也会通过客户成功团队的不断努力,更好地推向客户的具体应用场景中去。
经过近一年的建设运营,我们的客户成功体系已经能提供 7*24 小时的专家级支持、线上培训、远程定期运维巡检,以及客户成功经理定期回访。用户问题在 10 分钟到一个小时内必定有人响应及解决;客户成功经理平均两周会与客户开一次会,讨论最近使用的情况,以及未来可能的需求;解决方案团队根据用户反馈的信息,优化解决方案、抽取需求;研发团队推进镜舟新的产品 feature,从而服务更多的用户和客户。
从前期咨询,到 POC 测试,到项目规划与启动,到项目验收与客户培训,到持续的客户成功服务,到持续的满意度回访,客户成功体系可以覆盖全过程。这个大循环是依赖于客户成功体系标准化的人员能力和标准化的服务体系。我们认为这样才叫做真正的“客户成功”。
持续迭代更新的产品力到全面细致的战略布局与客户成功体系;从强大的竞争力到全面的生态战略布局与四位一体的客户成功体系,镜舟数据库的实践证明,国产数据库能够能够应对数字化时代的种种挑战,克服传统数据库的层层痛点,在国产化的路途中开辟出一条“极速统一”的破局之路。
版权声明: 本文为 InfoQ 作者【镜舟数据库】的原创文章。
原文链接:【http://xie.infoq.cn/article/3813e587f08d57cb72debaf8b】。
本文遵守【CC-BY 4.0】协议,转载请保留原文出处及本版权声明。
评论