“极速、统一、开放”,StarRocks 开启企业数据分析新局面
近日,由知名分析型数据库公司 StarRocks 主办的 StarRocks Summit 2021 在线召开。此次会议以“极速、统一、开放 ”为主题,探讨了在新技术、新场景驱动之下数据分析的新机遇和新架构。此次活动吸引了近万名大数据、数据库相关的工程师、媒体和分析师在线观看和互动,还有来自互联网、房地产、零售、物流等领域的客户参与并分享观点。在本次峰会上,StarRocks 还发布了全新的 2.0 产品。
新一代数据架构必然是“极速统一”的
近年来,数据驱动的概念不断深入人心,企业的数据分析场景也越来越丰富,对数据分析架构的要求也越来高。StarRocks 的联合创始人,COO 叶谦在开场的主题演讲中分享,企业新的数据分析场景催生的新需求主要包括四个方面:希望数据分析的速度变得更快、希望数据分析更加灵活、希望数据分析更实时、希望数据分析能支持更高的并发。
在这几方面的需求里,对数据分析的速度要求是一个最根本的需求。现有的同类产品在分析速度上仍然差强人意。虽然有的产品在单表分析上表现优异的产品,但在其他各个分析场景中,特别是在涉及到多表关联查询的场景、实时大量写入并分析场景、高并发查询分析场景时,当前同类产品的速度仍然不能满足业务需求。
正是因为速度不达标,企业为了满足业务需求,只能求助于预计算和大宽表,结果就是造成了数据分析的灵活性下降。叶谦指出“很难想象这样的数据分析灵活性如何能支持好业务的快速迭代。可能数据报表还没建设好,业务就已经错过了最佳的拓展窗口期。”
不仅如此,现有数据分析复杂架构还带来了很高的成本,包括建设成本、开发成本和维护成本。有的公司同时在维护 5、6 套不同的数据分析系统,而公司的大数据团队可能才不到 10 个人。在这种情况下,公司很难深入掌握每一套数据分析系统,导致了线上业务的风险。
StarRocks 一直在试图解决现有复杂数据架构的问题,他们的答案是:新一代极速统一的数据分析架构。StarRocks 已经实现了在多种数据分析场景下都能达到极速的分析效果。StarRocks 的单表查询性能和当前业界最好的产品持平,多表查询性能大幅领先于当前的同类产品。“正是因为这样全方位的极速,我们才能在业务中应用星型模型、雪花模型等更灵活的建模方式。”叶谦说,“在这个数据架构中,整个 OLAP 分析层可以统一到 StarRocks 中。”。
(图 1:基于 StarRocks 的极速统一的数据架构)
追求极速,直道超车
StarRocks 的联合创始人,CTO 赵纯的主题演讲深度解密了 StarRocks 极速背后的硬核技术。StarRocks 从自主研发的全面向量化引擎出发,在追求极速的路上不断实现突破。逐渐从追赶者,变成了领跑者。
在分析型数据库领域,国外著名产品 ClickHouse 一直是一个业界标杆。这个起源于俄罗斯的产品,最近刚刚以 20 亿美元的估值,融资 2.5 亿美金。其融资速度和其分析速度一样,震惊了业界。赵纯分享,在 StarRocks 向量化引擎 1.0 阶段,StarRocks 的单表查询性能已经比肩国外著名产品 ClickHouse,而多表查询性能,远超 ClickHouse。
而不久即将发布的 StarRocks 2.0 将把整个产品推入向量化引擎 2.0 阶段。在这个阶段里的,利用全新自主研发的基于代价模型的 CBO 优化器将发挥巨大的作用。由于新优化器的加持,StarRocks 在查询规划方面能够利用全局上下文,这使得有更多的优化手段可以用来加速单表查询。字符串全局字典就是其中一项重要优化,它适用于线上最普遍的,针对字符串列的多维度聚合分析场景,如连锁机构针对地域和门店的聚合查询,针对订单基于品类和标签的聚合分析等。在这种场景下 StarRocks 比 ClickHouse 还要快一倍以上!
极速统一的力量
截止到当前,StarRocks 已经在数百家公司的生产环境上线使用, 其中大公司超过 70 家。这些客户里包含了多个不同行业的头部客户,包括互联网,金融,物流,制造,教育,航旅,游戏和房地产等领域。“更让我们感到自豪的是,我们的每个上线客户都在不断扩大 StarRocks 的线上集群规模。这一方面说明了客户数据分析需求的旺盛,另一方面也说明了大家对 StarRocks 的认可。” 叶谦说。
与会的 10 个行业头部公司,如:腾讯微信、小米、贝壳找房、携程、顺丰科技等,分享了各自公司基于 StarRocks 打造新一代数据分析架构的经验。这其中不乏从 ClickHouse 切换到 StarRocks 的实践案例。
在携程的案例中,携程大住宿 HData 之前是 ClickHouse 的重度用户,虽然单表查询性能优异,但是不能支持高并发查询,以及运维的复杂性都让携程大住宿的工程师深受困扰。在峰会的圆桌讨论环节中,携程大住宿的史文俊还提到,曾经出现过长假访问高峰期间 ClickHouse 出现 Bug,导致所有服务都受到影响的情况,搞得工程师每逢长假都睡不好觉。在使用了 StarRocks 之后,高并发查询的问题,以及运维复杂的问题都得到了很好得解决。后续,携程大住宿会把实时和离线的数据分析都迁移到 StarRocks 上来,期望最终实现 OLAP 数据分析层的统一。
除了携程之外,贝壳找房、顺丰科技、汽车之家等公司也用实际案例,佐证了“极速统一”架构的能力。
开放的生态,无限的未来
自从 9 月初开放源代码以来,StarRocks 的社区建设进展迅速。目前,已经有近 10 家知名企业正式加入了 StarRocks 的建设。当前社区每月有 229 个 commits,月活跃 contributors 数超过 30 人,每月产生 300 多个 Pull Request。这个活跃度堪比 Flink 和 Spark 等著名的开源社区。据悉的 StarRocks 即将和几个著名的头部云厂商展开合作,共同对外提供基于 StarRocks 的产品。云厂商也会投入研发力量,加入 StarRocks 的社区建设。另外,StarRocks 面向开发者的 Hacker meetup,也将在近期启动。此举将一步激活社区,吸引更多的开发者加入 StarRocks 的建设。
(图 2:当前已经加入社区的知名企业)
本次 StarRocks Summit 2021 是 StarRocks 举办的第一届年度峰会。它向业界展示了一个锋利强悍的产品,一个朝气蓬勃、快速发展的社区。相信在未来的日子里的,StarRocks 一定会像它的名字那样,一面仰望星空,一面脚踏实地,为企业的数据分析发展注入更多的驱动力。
评论