StarRocks 存算分离技术探索活动回顾
2023 年 8 月 17 日,StarRocks 社区举办了云原生湖仓的第二期 Meetup --“StarRocks 存算分离技术探索” ,本场直播超过万人观看,热闹非凡。来自芒果 TV、阿里云 EMR 团队、火山引擎 EMR 团队以及 StarRocks 社区的技术专家与大家共同探讨了 StarRocks 存算分离技术及应用实践等话题。
本文总结了技术交流活动的关键内容和视频资料,感谢社区每一位小伙伴的支持和参与,未来我们也会继续与大家分享更多优质的内容!
议题一:解锁数据分析新境界:探秘 StarRocks 存算分离
讲师:丁凯 StarRocks Active Contributor
2023 年 4 月,StarRocks 3.0 版本正式推出存算分离架构,新架构极大地增强了系统的弹性扩展能力,并降低了计算与存储的总成本。能更好的解决存算一体架构面临的成本、弹性、资源隔离等挑战。
StarRocks 存算分离借助对象存储,可帮助用户节省高达 80% 的成本,并可实现秒级的弹性伸缩能力。通过优化的 Cache 技术,能够实现媲美存算一体的性能。另外,在存算分离结构中,StarRocks 实现全新的数据组织方式,实现了数据多版本能力,为未来实现 Time Travel 等高级能力打下基础。通过 Global Compaction 可以支持未来将 Compaction 任务调度至专用集群,降低对业务的影响。 未来版本还将引入 Multi-warehouse 功能,通过不同的 Warehouse 承载不同的工作负载,实现资源硬隔离,让业务之间互不干扰。
目前,多家企业用户已成功将 StarRocks 的存算分离应用于电商订单分析、金融业务数据分析和制造业设备数据分析等场景,并取得了稳定的上线成果。
未来,StarRocks 存算分离将拥有:
更强大的能力:包括提升冷数据查询性能,FE 存算分离,自动弹性等一系列重磅功能
更简便的使用体验:包括提升系统可观测性,降低用户性能调优成本以及更灵活的数据分享能力等
更完善的生态系统:将与其他引擎(如 Spark 等)实现更紧密的集成
议题二:StarRocks 在芒果 TV 的应用实践
讲师:黄立超 芒果 TV 产品技术中心资深大数据研发工程师
在搭建极速统一的流批分析架构方面,芒果 TV 充分利用了 StarRocks 的卓越功能。通过精巧地融合流式和批量数据处理,他们成功地实现了高效的数据处理和分析,为用户提供了极速的分析能力。
目前,芒果 TV 内部数据呈现如下特点:
数据规模:每日新增数据达 200GB,新增数据条数达 40 亿条,历史数据总量已达 100TB。
导入任务:涵盖超过 150 个同步表,10 个 Routine load 任务,4000+ Broker load 任务 。
查询请求:峰值查询 qps 超过 200 ,每日查询总数达 10 万次以上,平均查询耗时仅为 150 毫秒。
在存算一体的架构下,由于存储限制以及本地数据引发的扩缩容延迟问题,StarRocks 在芒果 TV 的应用更多地作为数据服务的有益补充。通过充分利用 StarRocks 的特性,成功解决了一些特定场景下的查询加速和实时分析等难题。
引入存算分离架构后,芒果 TV 不仅能够继续享受 StarRocks 强大的数据分析能力,还能因存算分离所带来的低成本和极强弹性能力而受益。未来,芒果 TV 将全面引入 StarRocks,并借助存算分离架构的优势,保证性能的同时进一步增强弹性,降低成本。
议题三:火山引擎 EMR 在 StarRocks 成本优化上的思考
讲师:杜军令 火山引擎云原生开源大数据平台 EMR 技术专家
火山引擎 EMR 目前已经集成的 StarRocks 存算一体版本面临多重挑战,包括运维复杂度高、容错性要求严格、灵活性不足以及综合成本较高等问题。
火山引擎 EMR 基于 StarRocks 的存算分离版本,积极探索与实践,带来了以下显著优势:
更低的成本:通过将数据存储与计算分开,计算与存储可以独立扩展,有效降低了成本
更好的弹性:分离后的计算节点可以独立扩展,从而大幅提高了 StarRocks 数据库的扩展性,使其能够更好地应对不断增长的数据负载。
更好的资源隔离:存储与计算分离使得用户可以一份数据多处计算,用户可以为每种业务分配独立的计算资源,之间互不干扰,但又共享数据,带来更好的资源隔离性
提高可靠性:专用存储一般拥有更好的数据可靠性,这也有助于保障数据的安全性和稳定性。
目前,火山引擎 EMR 基于 StarRocks 已经在旅游、在线教育和游戏等多个行业取得了广泛应用,证明了其在不同领域的可靠性和适用性。
未来,火山引擎 EMR 将继续深化 StarRocks 的云原生化,实现读写分离,并充分利用 AI 技术进行自动优化,例如根据数据分布智能选择存储和计算资源。此外,引入数据热度分级存储的概念,将进一步降低冷数据存储成本。
议题四:阿里云 EMR Serverless StarRocks 云原生化探索与实践
讲师:王晓龙 阿里云技术专家
EMR Serverless StarRocks 是开源 StarRocks 在阿里云上的全托管服务,用户可通过 EMR Serverless StarRocks 灵活地创建和管理 StarRocks 集群以及数据。几个月前 StarRocks 3.0 版本正式推出了存算分离架构,EMR 团队也想要借力社区,基于 StarRocks 存算分离架构升级 Serverless 产品架构。
在过去的两个多月的时间里,EMR 团队同社区的同学紧密协作,对存算分离的整体能力做了仔细梳理与测试。经过多轮验证,StarRocks 3.1 存算分离版本在阿里云环境下无论是稳定性、性能还是功能完备度,当前存算分离功能与存算一体已经基本对齐,例如:
存算分离带 cache 导入性能与存算一体的单副本模式相当,甚至优于存算一体的 3 副本模式;
高频导入 PK 模型测试场景中,存算分离相较于存算一体,性能差距仅为 10-20%;
在带 cache 的情况下,存算分离的查询性能与存算一体版本持平。
综上所述,存算分离版本已达到了生产使用的水平。接下来,阿里云 EMR Serverless 也将正式推出基于 3.1 版本的存算分离版实例。
未来,阿里云 EMR 团队将继续与 StarRocks 社区紧密合作,不断演进 EMR Serverless StarRocks 的存算分离架构,持续在性能、稳定性等方向上深度优化,例如 PK 模型、Compaction、冷查等典型场景 ,同时提升易用性及可观测性。
🎬更多精彩内容请查看演讲视频:https://www.bilibili.com/video/BV13N41167J8/
📖PPT 资料下载:https://forum.mirrorship.cn/t/topic/8359/2
💬 StarRocks Feature Groups:
StarRocks 社区为了让用户在使用新 features 时能更加得心应手,设立了包含 “物化视图”、“湖仓分析”和“存算分离” 等的用户群,欢迎小伙伴们入群对特定 feature 进行深入交流!
下方扫码添加小助手,回复关键字存算分离/湖仓分析/物化视图 即可加入对应的用户小组!👇🏻
评论