写点什么

EMR Serverless Stella 1.0 技术分享:StarRocks 企业级版本内核重大突破

  • 2025-11-19
    浙江
  • 本文字数:3073 字

    阅读完需:约 10 分钟

在今年云栖大会上,EMR Serverless Stella 1.0 正式发布,这是一款面向企业级场景深度优化的高性能数据分析引擎。阿里云开源大数据平台 OLAP 引擎负责人周康系统性地分享了 Stella 在存算分离架构、Lakehouse 场景以及全文检索等三大核心场景下的深度优化经验,为业界提供了大规模 OLAP 系统工程化实践的宝贵参考。Stella 引擎的发布将为企业级用户提供更加专业、高效的 OLAP 解决方案。

站在巨人肩膀上:与 StarRocks 开源社区的深度合作

阿里云与 StarRocks 开源社区的合作可以追溯到 2021 年,从开源第一天起就建立了深度合作关系。在过去四年中,双方在源码共创、产品发布和技术优化方面积累了丰富的经验。


合作历程回顾:

  • 2021 年:开启源码共创,重点推动数据湖分析相关框架和性能优化

  • 2022 年 3 月:推出 EMR 半托管 StarRocks 形态

  • 2023 年:响应市场需求,推出全托管产品形态

  • 2024 年:正式商业化存算分离版本


随着产品的成熟,阿里云 EMR 已积累数百家 B 端企业客户。“我们始终站在巨人的肩膀上,”阿里云开源大数据平台 OLAP 引擎负责人周康表示,“Stella 所有功能和优化都会逐步回馈给社区,同时确保 API 层面与开源版本完全兼容。”

Lakehouse 成为业界共识:Stella 应运而生

2024 年,阿里云正式发布 OpenLake 方案,标志着 Lakehouse 架构在数据基础设施领域的全面落地:

2024 云栖大会重磅发布 OpenLake 解決方案,StarRocks 为 OLAP 场景核心组件


伴随这一趋势,Lakehouse(数据湖仓一体)已成为国内外头部公司的业界共识:

海外 Lakehouse 发展趋势  Snowflake/Databricks/BigQuery + Iceberg/Delta/Hudi


阿里云推出了 OpenLake 一体化湖仓解决方案,StarRocks 在其中担任核心 OLAP 引擎角色。然而,在大规模生产环境中,StarRocks 在存算分离架构和湖表查询方面仍有优化空间。Stella 项目正是为了应对这些挑战而生。通过在调度、查询优化、执行引擎和存储引擎四个层面的全面改进,Stella 1.0 针对几十 TB 甚至 PB 级数据场景,解决了事务机制、Compaction 效率、查询性能、元数据管理等一系列生产环境痛点。

Stella 1.0 三大核心场景突破

EMR Serverless Stella 1.0 版本于今年 5 月正式发布,主要聚焦三大核心技术能力的重大突破:

一、存算分离:性能和稳定性大幅提升

Stella 1.0 在存算分离架构下实现了三大突破:


1. 冷查性能大幅提升

  • 实现 IO 合并,减少对象存储访问次数

  • 优化 Compaction 调度器,大幅减少小文件数量 

  • 针对轻量级 ETL 场景优化负载调度


2. 写入性能保障

  • 开发 Batch Publish 能力,解决串行化导入瓶颈 

  • 推出 Collocated PK Index,避免缓存盘和索引盘互相影响 

  • 优化 FE 侧 Tablet 创建删除效率


3. 缓存利用率优化

  • 引入 Index Cache 和 Meta Data Cache,提升元数据访问速度 

  • 实现自适应 IO Stream,智能选择本地缓存或远端访问 

  • 针对 ETL 场景优化空间利用


在 TPC-H 10T 基准测试中,存算分离版本的 Stella 相比上一版本**性能提升超过 120%**,充分展现了云原生架构的技术优势。

二、Paimon 湖表查询:Co-design 驱动性能飞跃

Stella 1.0 在 Paimon 表分析方面,重点聚焦在三个方向的提升:


1. 数据读写效率提升 

  • 实现自适应 Batch Size 优化 

  • 支持 Native Paimon Writer,性能大幅提升


2. 元数据访问优化 

  • 针对 Manifest 数量众多场景,实现分布式解析能力 

  • 适配异步 Splits 调度框架 

  • 优化 Manifest Cache 策略


3. 深度集成阿里云 DLF 2.x 

  • 与 Data Lake Formation 产品深度整合 

  • 借助 DLF 能力提升 Paimon 查询和写入的性能与稳定性 

  • 针对 DV 表实现 Native 读取优化


Stella 在 Lakehouse 场景下查询 Paimon 下性能的提升非常明显:


虽然 Flink + Paimon 已成为成熟的实时入湖方案,但计算引擎与 Paimon 存储的查询优化结合仍有巨大提升空间。Stella 与 Paimon 将在多个方便持续进行 Co-Design,更多优化成果将在后续版本中发布。

三、全文检索:打造高性能、高可用的文本分析能力

Stella 1.0 正式推出全文检索能力,支持高效、精准的文本查询。

  • 架构重构:对 Inverted Index(倒排索引) 整体解决方案进行架构优化

  • 存算分离主键表支持:新增主键表全文检索能力,实现高效精准的查询能力

  • 小文件合并:解决存算分离架构下的“性能杀手”问题(单个 Segment 产生十几个小文件)

文本过滤性能 benchmark: Stella vs EMR StarRocks 3.3


目前,全文检索功能已在阿里集团内部和云上客户中投入使用,所有优化代码已通过 PR 提交至 StarRocks 开源社区。

技术创新路线图持续演进

面向未来,Stella 引擎制定了清晰的技术发展路线图,在四个关键领域持续深耕:

  • 迈向 Stella 2.0 时代:轻量 ETL Production Ready

  1. 全面强化轻量级 ETL 能力,打通从数据接入、转换到分析的端到端链路,使用户无需依赖外部调度系统即可高效完成日常数据加工任务,真正实现“开箱即用、生产就绪”。

  • Lake Optimizer:湖表性能全面对齐甚至超越内表

  1. 推出专为开放数据湖设计的 Lake Optimizer,显著提升 Apache Paimon 等湖表格式的查询性能,让湖表在复杂分析场景中媲美甚至超越传统内表体验。

  • 智能化 Background Job Service:彻底释放用户运维负担

  1. 针对企业用户长期面临的内表运维复杂、资源争抢等问题,Stella 将推出智能化后台作业服务,自动处理 compaction、索引构建、统计信息收集等任务,实现高智能化的自治运维,大幅提升系统稳定性与资源效率。

  • 全文检索与向量检索能力持续提升

  1. 在已有的高性能 OLAP 基础上,进一步融合全文检索与向量检索能力,支持非结构化与多模态数据的统一分析,为 AI 原生应用、智能搜索等新兴场景提供底层引擎支撑。


这四大方向不仅体现了 Stella 对 Lakehouse 架构的深度适配,更彰显了其从“高性能分析引擎”向“智能数据平台核心引擎”演进的战略决心。随着这些能力的逐步落地,Stella 将为企业用户提供更开放、更智能、更易用的下一代实时分析体验。

技术探索与社区协作深度融合

Stella 引擎在技术架构探索方面持续深化与开源社区的合作:


Lakehouse 架构能力的持续拓展体现了 Stella 引擎的前瞻性设计理念。在现有 Lakehouse 架构基础上,系统将支持更多检索功能,为企业的多元化分析需求提供全面支持。向量搜索技术是与 Apache Paimon 深度集成的创新探索,在 AI 和大数据时代,向量搜索能力将成为差异化的技术优势。

开源社区贡献亮点

  • JSON 等半结构化数据处理能力持续增强,推动整个生态发展

  • 大规模场景技术实践经验分享,为社区贡献宝贵技术智慧

  • 与 Apache Paimon 团队深度技术合作,确保生态整合持续优化

  • 所有优化方案回馈开源社区,推动开源生态系统发展进步


开源社区的深度贡献体现了 Stella 团队的技术责任感和开放合作精神。JSON 等半结构化数据处理能力的持续增强将推动整个生态的发展,为企业在数字化转型过程中处理多样化数据提供更强支持。大规模场景下的技术实践经验分享不仅展示技术实力,更为社区贡献了宝贵的技术智慧。


“我们不仅要在云上提供增值服务,更要推动整个开源生态的发展,”周康强调,“通过深度参与开源社区,确保所有用户都能从技术进步中受益。”

技术意义与未来规划

EMR Serverless Stella 1.0 的发布标志着阿里云在湖仓一体技术领域达到新的里程碑,为用户提供从数仓加速、湖仓查询到全文检索的全方位 OLAP 能力支持。该版本不仅解决了企业在实际生产环境中遇到的关键技术挑战,更通过持续的技术创新和社区贡献,推动了整个 StarRocks 生态系统的发展。


未来,Stella 将继续围绕 Lakehouse 架构演进,在缓存调度、查询优化、存储引擎和写入能力等核心领域持续创新,为企业数字化转型提供更加强劲的技术引擎。

用户头像

还未添加个人签名 2020-10-15 加入

分享阿里云计算平台的大数据和AI方向的技术创新和趋势、实战案例、经验总结。

评论

发布
暂无评论
EMR Serverless Stella 1.0 技术分享:StarRocks企业级版本内核重大突破_阿里云_阿里云大数据AI技术_InfoQ写作社区