写点什么

新一代云原生实时数仓 SelectDB 重磅发布!最全技术亮点解读都在这里了

作者:SelectDB
  • 2022-12-15
    浙江
  • 本文字数:4607 字

    阅读完需:约 15 分钟

新一代云原生实时数仓 SelectDB 重磅发布!最全技术亮点解读都在这里了

在大数据时代的今天,数据分析技术已然成为数字经济时代最核心生产力!回顾往昔,可以归结为三个典型阶段:


第一阶段:传统数据仓库时代使用场景:企业内部 BI 技术实现:基于传统数据库共享存储架构和专门面向分析型的无共享 MPP 架构


第二阶段:湖仓并行时代使用场景:企业内部报表与分析,更大规模的 ETL 数据工程、行为分析和画像等新型数据应用分析,百万级外部客户高并发需求技术实现:离线数据湖,在线实时数仓


第三阶段:“云数仓为中心”的现代数据栈时代需求场景:一个系统复杂度低、性价比高、简单易用且可以应对更多元、广泛的场景和产业的数据分析平台方案技术实现:云原生化、实时统一的新一代云数仓产品


作为现代数据栈时代的主心骨,数仓在企业数字化转型的这场战役中无疑背负着极为重要的使命。如今的时代又对数仓提出了怎样的要求?云计算的浪潮下,数仓的三个技术发展趋势愈发清晰:


  • 实时化:千或万级高并发、毫秒级低延迟、高吞吐、走向分钟级的数据产出效率成为了数据分析技术的关键词。

  • 统一化:湖仓一体、在离线一体、流批一体等智能湖仓的理念加速了平台和接口的统一;计算模型的融合、多模数据类型支持进一步提高存储计算的效能,降低运维门槛。

  • 云原生化:数据仓库结合云的软硬件创新、资源弹性、安全可靠、随需而用等云原生特色,从根本上带给用户极致性价比和极简使用体验。将数字化转型新时代中的需求作为产品的标准,SelectDB 顺势而为,应运而生。基于存算分离的云原生架构研发,SelectDB Cloud  构建于多云之上,并针对复杂、多样的企业级数据分析需求打造五大核心特色优势:极致性价比 / 融合统一 / 简单易用 / 企业级特性 / 开源开放 SelectDB Cloud 产品优势解读>>> 极致性价比







读懂 SelectDB Cloud 的极致性价比


极致性价比背后的“黑科技”


  • 查询引擎的优化:基于 MPP 查询引擎进行优化,支持节点间和节点内并行执行;支持多张大表的分布式 shuffle join;;同时还支持类似 runtime filter 等动态执行技术,通过动态调整执行达到最优的执行效率。通过 colocate join 和 bucket shuffle join 优化能够减少数据传输,提升 join 性能。

  • 高效的数据处理:采用了列式内存布局,向量化计算框架。大幅减少了虚函数调用,提高了 cache 命中率,高效利用了 simd 指令,从而使得算子的性能提升数十倍。多种存储模式:采用了列式存储,使得编码、压缩、处理都非常高效;支持多种索引结构来做数据剪枝,加速数据扫描。支持物化视图,有效加速查询时的效率;支持多种存储模型。

  • 智能优化策略:采用了 RBO 和 CBO 结合的智能优化器。即将发布的短路径优化,还能够支持数万 QPS 的并发点查。云原生架构:SelectDB Cloud 云原生架构实现了本地磁盘缓存和对象存储的分层分级存储引擎 ——这样不同层级的存储成本带来综合成本大幅下降;同时在云原生架构实现了计算节点的分离和弹性,得以令计算资源的随需弹性扩缩容。>>> 融合统一







读懂 SelectDB Cloud 的融合统一


融合统一背后的“黑科技”


  • 混合负载:SelectDB Cloud 支持传统 OLAP 场景 (实时报表和 Adhoc 分析等),也支持批量数据处理(ETL/ELT)。开发者在将大批量的离线 ETL 变成实时、小批量和增量的 ETL 后,SelectDB Cloud 能够利用全内存的框架和向量化的引擎来更加高效的处理数据,可以达到几十倍的性能提升。开发者通过简单、标准的 SQL 语句就可以完成数据加工,SelectDB Cloud 也支持 Java UDF 来完成更加个性化的数据处理逻辑。同时,在云上 SelectDB Cloud 也很便捷的使用单独的 ETL 集群来做隔离。结构化/

  • 半结构化支持:SelectDB Cloud 高效原生支持半结构化数据的高效存储和检索分析,在降低了系统复杂性的同时明显提升了成本和性能的收益。SelectDB Cloud 具有灵活高效存储的能力,支持 Array, JSONB, Map 等复合数据类型和动态 schema 表。同时,SelectDB Cloud 具有丰富索引结构加速检索分析,也能够实现高效分析和处理。

  • 湖仓一体:SelectDB Cloud 还能对已经建设的离线数仓和数据湖进行联邦查询,在实现高性能的同时,不需要迁移历史数据。SelectDB Cloud 支持便捷的元数据打通,免去了手动创建外表的繁琐,同时能够对热元数据自动 cache,并且能够支持手动和自动刷新;同时,SelectDB Cloud 也支持多种外表的联邦查询 (Hive, Iceberg, Hudi 关系型数据库,ES,以及各种支持 HMS 协议的云数仓)。


简单易用 SelectDB Cloud 具有简单易用的特性,它能够大幅度降低企业技术团队的学习、使用门槛和开发周期,更加高效的释放数据生产力,助力业务发展和更迭。目前,SelectDB Cloud 是领域中少有支持 MySQL 连接协议的数仓。在如今的事务处理领域,MySQL 已经被各大公司广泛采用,基于此,用户可以使用 MySQL Client、JDBC 和 DBeaver 来连接使用 SelectDB Cloud,这对于用户来说节省了很多学习成本,更易于上手,兼容性也更好;另外,SelecDB Cloud 还通过可视化控制台为开发者和管理者提供了许多常规、高频的功能来支持不同角色对大量的日常管理任务;除此之外,SelectDB Cloud 还可以提供丰富易用的数据导入方式:包括 HTTP Load、Stage Load 和帮助周边大数据生态工具进行连接导入的 Connector 插件,这些功能为企业在数据分析全链路过程带来简单易用的体验。


开源开放在开源开放方面,基于 Apache Doris 开发的 SelectDB Cloud 实现了多方面的迭代和优化,但也同样传承了开源技术的开放、中立基因。SelectDB 与 Doris 高度兼容,用户可以在 SelectDB Cloud 和 Doris 之间自由、灵活迁移;同时,作为国内首家实现多云中立的云数仓产品,用户可以在国内外主流云上获得一致性的 SelectDB Cloud 使用体验。 在成功牵手阿里云、华为云、腾讯云和 AWS 后,SelectDB 仍在积极的扩大自己的合作生态,不久的将来,用户也将能够通过 Google 和微软的云端享受到 SelectDB 的极致数据分析服务。


企业特性 SelectDB Cloud 是一款面向企业研发,开箱即用的生产级数据仓库,在企业生产中,对于数据安全的保障十分重要,针对此,SelectDB Cloud 提供一系列相应的企业特性支持, 从而帮助企业安全、稳定地进行复杂的企业数据管理。SelectDB Cloud 四大解决方案通过落地赋能企业数字化转型,SelectDB 立足于实际的业务场景视角,将自身产品优势与多种数据分析方向和场景进行融合,正式推出了经过实践验证的四大解决方案,如图所示。



**面向企业内部的现代化数据平台  **


  • 现状分析:当前企业普遍使用典型的湖仓并行架构方案,既有面向批量的多个组件、也有面向交互分析的多个组件,甚至不止一个湖一个仓。这样的数据平台解决方案存在的问题主要集中在复杂性高、性价比低、实时性差。

  • 技术优化:采用了 SelectDB Cloud 的现代化数据平台方案将统一数据仓库和数据湖到单一平台,提供面向企业内部的 BI 报表和 Adhoc 分析,以及批量和增量 ETL 数据处理。它的特点就是以 SelectDB 云数仓为中心:提供三种数据集成方式(ETL、轻量 ELT、联邦查询)将数据接入到 SelectDB;存算分离架构降低资源成本、多计算集群设计实现计算隔离、多云一致保证开放性;单一数仓提供多种分析负载的支持。

  • 方案收益:复杂性降低,成本和门槛下降:管理成本下降,数据平台收敛为了一个以云数仓为中心的架构。并且云数仓是一个云服务,不需要客户自己运行和维护;使用者使用的门槛降低了,不需要学习多套系统。平台的经济性提升,提供了极高的性价比:综合资源成本降低,数据只存一份,存算分离、冷热分层、弹性扩缩容发挥优势;数据链路大大缩短,采用新型 ELT 数据集成和 SelectDB 世界领先的性能为平台实时性带来质的提升。多云可用,与开源系统的数据自由迁移,成为一个开放的系统,客户不用担心自己被锁定。


**面向外部客户的报表与分析 **


  • 现状分析:面向客户的报表和分析场景很多,比如面向站长的站点统计报表和分析、面向广告主的广告投放报表和分析平台等,这类场景的应用特点是高并发,低延时;数据流延时低;数据不丢不重;支持数据更新。

  • 技术优化:高并发方面,采取分区、分桶裁剪,sort key 裁剪,和点查的短路径优化;在查询速度上,采用物化视图,预聚合模型,和向量化的 MPP 查询引擎;另外,支持了 Flink CDC 和高频次小批量导入;支持事务性两阶段导入;基于云的对象存储做数据持久化;同时,使用 repalce if not null,能够以小批量的形式便捷更新数据。

  • 方案收益:全面提升:SelectDB Cloud 针对报表场景能够达到上万并发;能够做到毫秒级别响应;针对数据流延时低的诉求,数据可见性最快可以做到秒级别;数据可靠,不丢不重。基于 SelectDB Cloud 的方案,某用户的广告业务场景,实现了上万 QPS 的高并发,查询延时 99 分位 200ms 以内,每天新增数十亿条记录。


**用户画像与行为分析 **


  • 现状分析:行为分析场景有三个特点,分别是表结构持续快速变更、分析复杂、查询延迟要求低。而用户画像的场景有两个特点,标签实时更新和快速人群圈选。

  • 技术优化:针对上游数据源,将数据同步到 SelectDB Cloud 做实时行为分析,冷数据同步到数据湖中做低成本数据存储及挖掘;在存储层,行为数据抽取出标签数据分层存储;在查询层则提供了丰富的分析函数,创建正交位图高性能物化视图,实现精确去重和留存分析等;在数据管理层则实现了维护高性能表结构变更及宽表部分列更新操作的支持。   方案收益:可以做到行为分析在 3000 亿活跃数据的场景下,平均延迟小于 10s,P95 延迟在 20s 左右。用户画像在千亿数据下实现 10 个标签秒级人群预估和圈选,100 个标签 10 秒级。


日志存储与分析


  • 现状分析:日志存储与分析场景特点就是数据写入吞吐量大,还要实时可见;数据量大,还要成本低;交互式查询速度快,且支持半结构化、非结构化文本检索、按时间排序。

  • 技术优化:在写入优化方面,采用了客户端实时小批量写入,服务端内存攒批写入和时序 compaction 机制;从存储成本入手,设计了列式存储、倒排索引、高压缩比算法以及存算分离、冷热分层;同时,检索优化则采用了倒排索引快速精准定位到匹配的行,时间排序的时序存储模型和动态剪枝的 TopN 算法。

  • 方案收益:相比传统的方案,SelectDB Cloud 能够达到 4.2 倍写入性能提升,仅占用 1/5 的磁盘空间,便达到 2.3 倍的查询性能提升。


携手共赴星辰大海“SelectDB Partners”合作计划发布


在云原生时代势不可挡的今天,SelectDB 希望能够像“星星之火”一样,通过和生态内的伙伴携手并进,落地覆盖至更多企业、行业的业务场景,为企业的数字化转型之路提供“可以燎原”的势能。基于此,SelectDB 在发布会上正式发布了 “SelectDB Partners" 合作伙伴计划,对解决方案合作伙伴、服务合作伙伴和销售合作伙伴这三大类伙伴进行招募,以此共谋创新成长之路。秉持着“开放共赢”的合作理念,SelectDB 也为合作伙伴制定了一系列针对技术合作、市场合作、销售合作的相关权益,希望通过专业的培训与支持、技术方案共创、品牌活动与产品推广支持、商机共享等覆盖市场开拓多链路的助力,帮助每一位 SelectDB Partner 更好地发展。虽然仅成立一年,但 SelectDB 在迅速发展之下,已经得到领域内各行各业优秀伙伴的认可,并且与他们开启了战略合作,目前,SelectDB 已陆续开始与合作伙伴们共建数据中台、BI 应用等平台级解决方案,并开展了互联网、金融、政府、制造等行业级的解决方案构建。



为数而生,因云而新,未来一路同行!SelectDB 产品发布会众多精彩纷呈的内容,请前往 SelectDB 视频号查看完整发布会!

用户头像

SelectDB

关注

极速易用 开源开放 2022-04-20 加入

The enterprise-grade cloud-native distribution for Apache Doris.

评论

发布
暂无评论
新一代云原生实时数仓 SelectDB 重磅发布!最全技术亮点解读都在这里了_数据库_SelectDB_InfoQ写作社区