写点什么

MiniMax GenAI 可观测性分析:基于阿里云 SelectDB 构建 PB 级别日志系统

作者:SelectDB
  • 2025-03-20
    北京
  • 本文字数:3644 字

    阅读完需:约 12 分钟

阿里云SelectDB作为 MiniMax 日志存储服务的核心支撑,为在线和离线业务提供了高效、稳定的查询与聚合分析能力。其支持实时物化视图、租户资源隔离、冷热分离等企业级特性,不仅有效解决了日志场景下 PB 级别数据查询的性能瓶颈,还通过智能化的资源调度与存储优化,实现了成本与效率的最佳平衡,为业务的高效运转提供了坚实保障。”


——MiniMax 可观测架构师 香克斯

可观测日志系统的探索与挑战

近年来,MiniMax 在多模态与文本模型领域持续发力,凭借其技术突破和应用创新能力,迅速成为全球人工智能领域的焦点。25 年 1 月,MiniMax 发布了多项重磅成果:支持主体参考功能的视频新模型 S2V-01、基于大规模线性注意力机制的开源模型 MiniMax-01 系列,以及支持 17 种语言音频合成的 T2A-01 系列语音模型。作为一家成立仅三年但估值已突破数十亿美元的初创企业,MiniMax 已然跻身人工智能领域最具潜力的独角兽企业之列。


为了深入洞察模型训练迭代和 AI 应用的运行状态,精准定位潜在问题以持续优化模型和业务系统的性能,可观测系统的建设成为 MiniMax 底层基础设施建设中不可或缺的关键环节。然而,随着业务规模的快速扩张,海量日志数据的处理对系统的性能和成本提出了严峻挑战。

Loki 架构的尝试与局限性

**在可观测系统的建设初期,为降低业务系统复杂度和存储成本,MiniMax 采用轻量化的 Grafana Loki。**其中,Promtail 负责采集日志并发送给 Loki,Loki 负责日志存储和查询,Grafana 用于 UI 展示。Loki 通过日志标签和元数据索引显著降低了存储成本和索引复杂度。然而,因缺乏日志内容的索引,查询依赖正则表达式匹配和逐行扫描,造成大规模日志查询时资源消耗过高,查询响应时间延长。此外,每个 Kubernetes 集群需独立部署完整的日志采集与存储服务,增加了运维复杂度和成本。



随着业务规模的指数级增长,MiniMax 日志数据量迅速攀升至 PB 级别,Apache Loki 在资源消耗、写入性能和查询易用性等方面暴露出瓶颈。为此,MiniMax 对日志可观测系统提出了更高要求:


  1. 更高的查询性能:支持上亿条数据的秒级查询响应。

  2. 更低的存储成本:在 PB 级日志数据规模下,实现更具性价比的日志采集与存储方案。

Doris 架构的升级与痛点

为满足上述需求,MiniMax 对日志可观测系统进行了全面重构。新系统采用阿里云开源的 iLogtail 作为日志采集工具,将日志数据推送至 Kafka 消息队列。随后,数据通过两种方式写入 Doris 集群:一部分由 Mlogs Ingester 从 Kafka 拉取并通过 Stream Load 写入 Doris;另一部分由 Doris 通过 Routine Load 直接订阅 Kafka 消息流。Doris 作为核心存储与查询引擎,实现了全量日志数据的统一管理,避免了多集群独立部署的复杂性



然而,随着 MiniMax 旗下星野和 Talkie 等 AI 应用的日活跃用户数迅速攀升至行业榜首,其日志数据量和查询请求呈爆发式增长,日均新增日志数据量超过数百 TiB,MiniMax 日志可观测系统逐渐面临了诸多挑战:


  1. 业务快速扩张导致数据和查询量激增,频繁的集群扩容需要进行数据迁移,因数据规模较大,迁移过程繁琐且耗时,影响了业务连续性。

  2. 日志可观测系统负责多个业务的数据分析,单实例多业务并发时,内部资源竞争和干扰导致实例稳定性和查询性能下降,降低用户体验和决策及时性

  3. 自建 Doris 的运维成本较高,参数调优和集群管理耗费了大量的人力物力

  4. 在遇到 Apache Doris 内核相关问题时,社区支持的效率和专业性不均衡,增加了企业解决问题的时间成本和风险。


这些问题制约了 MiniMax 日志可观测系统的优化升级,亟待寻求更高效、稳定的解决方案。

DevOps 日志系统最佳实践:阿里云 SelectDB

为了应对上述挑战,MiniMax 引入了阿里云企业级数据仓库 SelectDB。SelectDB 沿用了 Apache Doris 的技术架构,100%兼容 Doris 语法,并针对写入吞吐和查询性能等方面进行了深度优化。它不仅降低了使用成本,还简化了运维流程,提高了服务等级协议(SLA)保障。通过采用存算分离的云原生架构,SelectDB 为处理海量日志提供了近乎无限的扩展能力,从而为 MiniMax 的日志可观测体系提供了更加稳定和健壮的日志数据处理能力。

阿里云 SelectDB 技术方案优势

阿里云 SelectDB 以其实时弹性、简单易用、开源开放等差异化优势,能够实时处理 PB 级别的日志数据,并且提供了万级 QPS 实时报表查询和亚秒级即席多维分析的体验。与开源自建方案相比,SelectDB 在性价比上有显著提升,并通过深度优化 OSS 写入方式,实现了超过 10GB/s 的读写吞吐能力。

优势一:弹性伸缩,提高集群扩容效率

Apache Doris 采用 MPP 架构,基于分桶逻辑进行数据的物理水平拆分,这种架构在用户数据量稳定阶段能有效利用多分桶的并行处理能力解决大规模数据实时查询问题。然而,随着数据写入量和单个分桶数据量的快速增长,单个数据分桶节点可能会达到资源瓶颈,此时集群必须进行水平扩展。Doris 的水平扩展需要进行全量数据的 Reblance,以避免各个节点间负载不均衡。对于 MiniMax 来说,单次扩容因涉及 PB 级数据的重分布,可能需要数小时甚至达到天级别,给运维带来巨大负担。此外,突发业务流量时,扩容效率低可能导致集群资源不足,进而引发实例宕机风险。


阿里云 SelectDB 采用存算分离的云原生架构,将计算与存储分层解耦,支持独立扩缩容。在扩容过程中无需迁移数据,PB 级数据可以实现分钟级扩缩容。业务低谷期可以根据实际情况动态缩减资源,避免了资源浪费,最大化提高资源利用效率。MiniMax 在将日志可观测系统迁移到 SelectDB 后,整体集群扩容时间可达到分钟级别,大大降低了运维成本,并且能够通过弹性伸缩能力迅速应对突发业务流量。


优势二:存算分离, 提升吞吐效率并降低存储成本

MiniMax 在使用 Apache Doris 集群时,为了实现数据高可用,生产环境默认采用 Doris 的两副本模式,导致存储资源消耗和集群写入压力均增至单副本的两倍。此外,考虑到过高的存储成本,MiniMax 在 Doris 数仓中仅保留 15 天的业务数据,其他数据通过冷归档的方式存储;而需要对这部分归档数据进行查询分析时,则临时从归档库中解压加载后才能进行分析,极大降低了数据查询的效率。


阿里云 SelectDB 采用存算分离的设计,存储层基于阿里云对象存储 OSS 提供存储服务。MiniMax 在使用 SelectDB 后,利用 OSS 的数据高可用能力,计算引擎仅需单份数据写入,存储资源需求减少至 Doris 的二分之一,实际业务写入吞吐能力提升超 20%。此外,由于整体存储成本的降低,SelectDB 支持对历史全量数据的实时查询分析,大大提高了数据查询效率

优势三:资源隔离,提高并发读写效率

MiniMax 在使用 Apache Doris 时,存在多个业务团队共享同一实例进行全量数据查询分析的情况,可能导致因不规范或大规模查询耗尽实例资源,进而引发查询或数据导入任务超时。


**阿里云 SelectDB 支持云原生多集群硬隔离能力,用户可以将单个实例的计算资源划分为多个逻辑集群,不同集群之间的分配独立的****计算资源,实现了不同集群的严格物理资源隔离和数据共享,很好的解决负载隔离问题。此外,SelectDB 还支持读写分离能力,进一步提高了并发查询效率。MiniMax 在使用了 SelectDB 后,采用了 SelectDB 多集群隔离能力,并将读写集群分开,避免了读写资源抢占带来的实例稳定性问题,大大提高了并发读写效率。


优势四:缓存加速,提供高吞吐与低延迟

**阿里云 SelectDB 通过单副本本地读写缓存、智能数据淘汰策略、高效列式存储格式和先进压缩算法,显著提升了海量数据的读写效率。**业务进行数据查询时,依据 LRU 的读缓存策略,保证业务对于实时写入数据和高频查询热数据的查询性能。当发现缓存命中率低和查询性能不及预期时,可以进行实时的缓存空间扩容,以提升缓存命中率,PB 级数据 P95 查询可以在 3 秒内响应,提高了数据查询效率。



阿里云 SelectDB 还具备高 SLA 保障,持久化数据存储提供同城冗余和 12 个 9 的数据可靠性保障。此外,SelectDB 还提供了直观的用户界面和产品化的运维工具,支持扩缩容、版本升级、参数配置和监控告警等操作,显著降低了运维复杂度。用户仅需关注计算资源、缓存大小和数据存储使用率等核心指标,减少了开发和运维团队的负担。



业务价值

基于阿里云 SelectDB,MiniMax 构建了覆盖国内及海外业务的日志可观测中台,总体数据规模超过数 PB,日均新增日志写入量达数百 TB。系统在 P95 分位查询场景下的响应时间小于 3 秒,峰值时刻实现了超过 10GB/s 的读写吞吐。通过存算分离、高压缩比算法和单副本热缓存等技术手段,MiniMax 在优化性能的同时显著降低了建设成本,计算资源用量降低 40%,热数据存储用量降低 50%,为未来业务的高速发展和技术演进奠定了坚实基础。

总结与展望

回顾 MiniMax 可观测系统的演进历程,从初期的 Loki 架构到 Apache Doris 的引入,再到 SelectDB 的全面升级,每一次技术迭代都体现了 MiniMax 对业务需求的深刻理解和对技术创新的不懈追求。阿里云 SelectDB 凭借其卓越的性能、灵活的架构和强大的生态能力,为 MiniMax 提供了高效、稳定的日志存储与分析服务,助力其在大模型实践中实现成本与效率的最佳平衡。


未来,随着 MiniMax 业务的持续高速发展,日志可观测系统将继续作为洞察系统运行状态和优化性能的核心工具。阿里云将与 MiniMax 携手,进一步挖掘日志数据的潜在价值,为业务创新提供更强有力的支持。

用户头像

SelectDB

关注

极速易用 开源开放 2022-04-20 加入

SelectDB 是基于 Apache Doris 构建的现代化数据仓库,支持大规模实时数据上的极速查询分析。

评论

发布
暂无评论
MiniMax GenAI 可观测性分析:基于阿里云 SelectDB 构建 PB 级别日志系统_数据库_SelectDB_InfoQ写作社区