TiDB 替换 Starrocks:业务综合宽表迁移的性能评估与降本增效决策
作者: 我是人间不清醒原文来源:https://tidb.net/blog/6638f594
1、 场景
业务综合宽表是报表生成、大屏幕展示和数据计算处理的核心数据结构。目前,这些宽表存储在 Starrocks 系统中,但该系统存在显著的性能瓶颈。例如,在高峰时段,查询性能(QPS)仅为 20,99th 百分位响应时间长达 2.5 分钟,且 CPU 和内存资源接近饱和。特别是在 2024 年,系统多次遭遇后端内存耗尽(OOM)的情况,导致需要手动干预才能恢复正常运行。鉴于 Starrocks 系统的版本较旧,我们正在考虑对其进行升级或者迁移到 Tidb 集群中。
为了评估升级 Starrocks 系统或迁移到 TiDB 集群的可行性,我们对同一环境下的 TiDB 集群进行了压力测试。测试结果表明,TiDB 集群的性能表现超出了我们的预期,因此我们决定将业务综合宽表迁移到 TiDB 集群。
2、 宽表信息

3、 集群配置


4、 Sql 查询对比


5、Jmeter 压测对比
压测准备:windows11 16 核 32G 安装 jmeter
教程:Jmeter 保姆级安装教程(超详细建议收藏加关注)_jmeter 安装详细教程 -CSDN 博客
SQL 语句准备:研发提供的复杂 sql 查询

线程配置:线程数 200 ramp-up 时间 10,持续 300s;10 秒钟拉起 200 个进程,持续 300s

Tidb 和 Starrocks 服务器 CPU 情况:


6、结果
根据测试结果分析,Tidb 在压力测试期间,除 TidbServer 的 CPU 使用率较高外,TiKV 和 TiFlash 的表现均符合预期。然而,Starrocks 的三台服务器 CPU 使用率过高,且吞吐量指标未能达到理想状态。
7、后续规划
鉴于 Starrocks 系统的性能瓶颈和资源饱和问题,以及 TiDB 集群在压力测试中表现出的优越性能,我们决定将业务综合宽表从 Starrocks 迁移到 TiDB 集群,并将 Starrocks 资源陆续释放,实现降本增效
版权声明: 本文为 InfoQ 作者【TiDB 社区干货传送门】的原创文章。
原文链接:【http://xie.infoq.cn/article/d24b3d98a6113ef0298b90f1c】。文章转载请联系作者。
评论