七年,从 TB 到 PB:TiDB 助力马上消费金融核心系统演进
编者按
作为一家技术驱动的持牌消费金融公司,马上消费金融在七年间见证了业务数据从 TB 级到 PB 级的爆发式增长。传统的数据库方案在这一过程中逐渐显得力不从心。为了应对挑战,马上消费金融于 2018 年引入了分布式数据库 TiDB,开启了一段长达七年的技术革新与深度实践之旅。
本文根据马上消费金融技术专家谭清如、段勇在 TiDB 社区活动现场分享整理而成。


本文作者:马上消费金融 谭清如(左)、段勇(右)
作为一家技术驱动的持牌消费金融公司,数据是马上消费金融业务的生命线。在数字化转型的道路上,马上消费金融的数据库架构经历了巨大的挑战。随着业务的迅猛发展,我们的数据规模在七年间从 TB 级猛增至 PB 级。
最初,我们依赖传统的 MySQL 分库分表方案来应对,分库分表虽然在一定程度上缓解了数据存储和处理压力,但却带来了业务侵入性强、扩容困难、高并发处理瓶颈等新挑战,运维变得异常复杂。
在这样的背景下,我们开始寻找新的解决方案。2018 年,我们注意到了 TiDB 这一新兴的分布式数据库,并怀着探索和学习的心态,开启了与 PingCAP 的合作之旅。
一、马上消费金融七年 TiDB 使用历程

马上消费金融 7 年 TiDB 应用之路大致可以分为以下阶段:
2018 年:初试牛刀,业务破冰。最初,我们只是在一些边缘场景中试用 TiDB,以解决数据增长和分库分表带来的挑战。我们需要验证它是否真能如宣传的那样,在提供水平扩展能力的同时,还能简化我们的技术栈。
2021 年:深化应用,全面覆盖。经过三年的实践,我们团队对 TiDB 的驾驭能力有了显著提升。我们开始开始将 TiDB 应用于一些更为重要的系统,对大库进行替换。以往面对大库分库分表带来的难题,业务研发往往因投入成本过高而不愿轻易变动。而 TiDB 的出现,成功解决了这一困扰。 TiDB 不仅可实现原生一致性保障和在线水平扩容,还具备高度的压缩比,在解决业务诉求的同时,有效降低了成本。这一阶段,TiDB 在马上消费金融公司内部的应用范围逐渐扩大,其优势也逐渐得到更多业务部门的认可。
2023 年:快速增长,深度融合。到 2023 年,TiDB 在我们内部迎来了全面开花的阶段。Online DDL、Dashboard 等实用功能得到广泛应用,极大地简化了运维复杂度,让研发人员切实感受到 TiDB 的优势。分库分表、HTAP 开发等场景对 TiDB 的需求也日益增多,业务部门开始主动寻求与 TiDB 的结合应用。TiDB 在马上消费金融的应用规模呈现出指数级增长,成为支撑公司业务发展的重要技术力量。2024 年,马上消费金融也开始应用平凯数据库(TiDB 企业版)。
2025 年:全面升级,场景扩展。TiDB V8.5 版本发布后带来了更多强大的功能。资源管控功能能够实现一个数据库下不同用户访问时的资源隔离,有效解决多用户并发访问时的资源冲突问题;IME 功能可以解决小表热点问题,提升系统整体性能;平凯数据库敏捷模式有望解决单机版本延迟需求问题,为业务发展提供更有力的支持。基于这些新功能,马上消费金融计划在未来全面替代 MySQL。
二、TiDB 为何能赢得我们的信赖?两大核心优势
七年的使用下来,我们深刻感受到 TiDB 的两大核心优势与金融场景的需求高度契合:极致的稳定性和卓越的成本效益。
(1)金融级的稳定性
面向金融级高可用设计

我们深刻感受到 TiDB 与金融场景应用的高度契合性。首先,稳定性是金融行业对数据库的核心要求之一,TiDB 在这方面表现卓越:
TiDB 采用面向金融级的高可用设计,基于 Raft 协议确保数据多副本同步。即使部分节点出现故障,也能保证服务连续性,满足金融业务对数据零丢失的严格要求。在实际应用中,即使某个数据中心出现故障,TiDB 凭借其多副本机制,依然能够保障业务正常运行,确保数据不丢失、服务不中断。
TiDB 具备智能故障检测与切换功能,通过实时监控节点健康状态,能够自动触发主从切换或副本迁移,减少人工干预,将系统不可用时间降低至秒级。这种智能化的运维机制,大大提高了系统的稳定性和可靠性,降低了因故障导致的业务风险。当某个节点出现性能下降或故障时,TiDB 能够迅速检测到并自动进行切换,确保业务不受影响。
TiDB 支持同城双活或异地多活架构设计,结合其分布式特性,可有效应对机房级灾难,保障业务 7×24 小时稳定运行。早期,马上消费金融在使用 MySQL 时使用传统的主从复制或是基于第三方工具同步数据,较难完全支撑跨中心读写场景。而通过设置 TiKV Labels 标签,将数据三副本分布在三个数据中心,极大地提升了系统的可用性和容灾能力。在面对自然灾害或其他意外情况导致某个机房无法正常工作时,系统能够自动切换到其他机房,确保业务的持续稳定运行。
在线变更与自愈能力

TiDB 的稳定性还体现为在线变更与自愈能力。在处理一张数据量庞大的表时, TiDB 支持根据业务负载情况动态调整 DDL 并发度,既能加快操作速度,又可确保业务连续性,实现用户无感知。并且在执行过程中,即使 TiDB Server 宕机,相关任务也能在后台继续执行,确保操作的完整性和可靠性。相比之下,MySQL 在部分场景下仍需借助第三方工具实现类似功能,运维复杂度及成本较高,且在主从复制场景下,Online DDL 可能会导致从库的延迟上涨,无法满足从库一致性读取需求。

在马上消费金融使用 TiDB 的过程中,Dashboard 帮助运维效率实现了大幅提升,尤其是 TOP SQl 功能令人印象深刻。内置的 TiDB Dashboard 可自动关联慢查询、锁冲突与硬件指标,生成可视化诊断报告,帮助运维人员快速分析问题根源。同时,通过 EXPLAIN ANALYZE 和 SQL 指纹功能,能够识别出查询中的全表扫描等性能问题,并定期生成 TOP SQL 报告,协助 DBA 主动优化关键业务。当系统出现性能下降时,TiDB Dashboard 可以快速定位到是哪些查询语句导致了问题,并提供相应的优化建议。
(2)革命性的弹性架构与成本效益
降本:在成本方面,TiDB 支持水平扩展的特性,使得公司可以根据业务需求动态增加或减少节点,避免了传统数据库在扩展时可能面临的硬件升级或替换的高昂成本。当业务量增长时,可以轻松添加节点来提升系统性能;当业务量下降时,也可以减少节点,降低硬件成本。整体而言,TiDB 基本可以做到无业务感知。 同时,TiDB 支持将数据按访问频率分层存储,热数据存储在高性能介质上,冷数据存储在低成本介质上,有效降低存储成本。此外,它还支持数据压缩技术,采用高效的压缩算法,显著减少存储空间占用,进一步降低硬件成本。通过这种方式,即使数据量不断增长,存储成本也能得到有效控制。
增效:与此同时,马上消费金融对近期上线的 TiDB Resource Control 做了验证,从验证结果看,资源利用率提升显著。反观传统 MySQL 架构,为实现高可用性,从节点通常处于备用状态不承担读写负载,加之多机房部署的资源冗余,整体集群 CPU 利用率往往低于 3%。而采用分布式架构的 TiDB,所有节点都参与计算负载均衡,可将集群 CPU 利用率提升至 10% 以上,显著提高了硬件资源的使用效率。TiDB 采用计算与存储分离的分布式架构,资源利用率可随业务需求动态调整,避免了资源浪费。
三、两大案例分享
案例一:联机账务系统建设
联机账务系统建设是马上消费金融应用 TiDB 的一个重要实践案例。该系统旨在汇聚现有业务系统部分表数据,与原业务数据库结构保持一致,解决业务方数据库大表问题。并且系统建设要求极高,需满足多机房部署,同步 MySQL 延迟小于 1m,联机系统的 SLA 指标达到可用性 99.95%、准确性每 5 分钟为单位错误率不超过 1%、TPS 为 8000、查询延迟 TP99 < 200ms。传统的分库合并解决方案实施难度较大,而 TiDB 支持 HTAP 混合分析型算法,高度契合了这一系统的业务场景需求。

在架构设计上,上游众多 MySQL 集群的数据通过 TiDB 的 DM 工具进行增量同步和数据抽取、聚合,然后汇聚到 TiDB。在 TiDB 上,借助 Tiflash 满足数据查询需求。经过实践,该系统取得了显著成效。聚合后集群数据量近 100T,单表数据量近 3T,通过 Tiflash 显著提升了查询效率,满足了业务日常查询需求。上游 MySQL 上百个分库,每天产生数据增量 2T 左右,通过增量同步几乎做了 0 延迟。在处理大规模数据查询时,集群响应延迟能达到 500ms 以内,并且随着业务规模的增长,TiDB 可通过简单增加节点实现性能的线性扩展,有效避免了传统数据库因数据量激增导致的性能瓶颈问题。
案例二:统一额度管理平台迁移
统一额度管理平台是马上消费金融客户统一授信额度管理的核心系统,该平台具有单表数据量庞大、业务连续性要求高、低延迟响应需求以及多活部署需求等特点。随着业务发展,平台数据规模已达 11TB,原有的 MySQL 架构难以满足业务增长需求。

经过充分的技术调研和性能测试,马上消费金融决定采用 TiDB 分布式数据库进行架构升级。在迁移过程中,通过 DM 实现 MySQL 到 TiDB 的全量 + 增量同步,支持断点续传与自动冲突检测,确保数据一致性;使用 TiCDC 反向同步 TiDB 数据至 MySQL,形成双向通道,当业务需回退时,可快速切换至原 MySQL 环境,RTO < 30 分钟。数仓抽数需求则通过 TiCDC → Kafka 实现,支持多 Topic 分区与协议转换,供下游实时消费。

迁移后,统一额度管理平台成功承载了 25TB 的数据规模,彻底解决了 MySQL 单机存储瓶颈,实现线性水平扩展。在业务高峰期,并发处理能力达 3 万 TPS,平均响应延迟稳定低于 60ms,满足了高并发低延迟的业务需求。与 MySQL 传统 MGR/MHA 方案相比,TiDB 分布式架构将系统可用性提升至 99.99%,故障恢复时间缩短 90%,并原生支持多活部署,有力保障了业务连续性。
四、结语
回顾马上消费金融与 TiDB 携手走过的七年高效发展历程,从最初的试探性应用到如今 PB 级数据承载,TiDB 在帮助马上消费金融革新技术架构、应对数据挑战、提升业务性能、降低成本等方面发挥了重要作用。为确保风险可控,马上消费金融将逐步扩大分布式数据库的使用规模,持续探索和适应新技术的发展,充分挖掘分布式数据库 TiDB 在业务中的潜力。
评论