写点什么

【Redis 技术探索】「数据迁移实战」手把手教你如何实现在线 + 离线模式进行迁移 Redis 数据实战指南(在线同步数据)

作者:洛神灬殇
  • 2023-01-07
    江苏
  • 本文字数:5753 字

    阅读完需:约 19 分钟

【Redis技术探索】「数据迁移实战」手把手教你如何实现在线+离线模式进行迁移Redis数据实战指南(在线同步数据)

从实战出发使用 RedisShake 进行 Redis 数据在线+离线模式迁移指南

RedisShake 基本介绍

RedisShake是基于redis-port基础上进行改进的是一款开源的 Redis 迁移工具,支持 Cluster 集群的在线迁移与离线迁移(备份文件导入)。数据可平滑迁移,当部署在其他云厂商 Redis 服务上的 Cluster 集群数据,由于 SYNC、PSYNC 命令被云厂商禁用,无法在线迁移时,可以选择离线迁移。

RedisShake 使用背景

RedisShake 是一个用于在两个 Redis 实例之间同步数据的工具,满足非常灵活的同步与迁移需求。Redis 实例之间的关系其中可能存在(standalone->standalone),(standalone->Cluster),(Cluster->Cluster)等。目前,比较常用的一个数据迁移工具是 Redis-Shake ,这是阿里云 Redis 和 MongoDB 团队开发的一个用于 Redis 数据同步的工具。

RedisShake 功能说明

RedisShake 主要是支持 Redis 的 RDB 文件的解析、恢复、备份、同步四个功能:


  • 恢复(restore):将 RDB 文件恢复到目标 Redis 数据库。

  • 备份(dump):将源 Redis 的全量数据通过 RDB 文件备份起来。

  • 解析(decode):读取 RDB 文件,并以 JSON 格式解析存储。

  • 同步(sync):支持源 redis 和目的 redis 的数据同步,支持全量和增量数据的迁移,支持从云下到阿里云云上的同步,也支持云下到云下不同环境的同步,支持单节点、主从版、集群版之间的互相同步

  • 同步(rump):支持源 Redis 和目的 Redis 的数据同步,仅支持全量迁移。采用 scan 和 restore 命令进行迁移,支持不同云厂商不同 redis 版本的迁移。


注意:如果源端是集群版,可以启动一个 RedisShake,从不同的 db 结点进行拉取,同时源端不能开启 move slot 功能;对于目的端,如果是集群版,写入可以是 1 个或者多个 db 结点。

Redis-Shake 特性概览

  • 高性能:全量同步阶段并发执行,增量同步阶段异步执行,能够达到毫秒级别延迟(取决于网络延迟)。同时,我们还对大 key 同步进行分批拉取,优化同步性能。

  • 在 Redis 5.0、Redis 6.0 和 Redis 7.0 上测试

  • 支持使用 lua 自定义过滤规则

  • 支持大实例迁移

  • 支持 restore 模式和 sync 模式

  • 支持阿里云 Redis 和 ElastiCache

  • 监控体系:用户可以通过我们提供的 restful 拉取 metric 来对 redis-shake 进行实时监控:curl 127.0.0.1:9320/metric。

  • 数据校验:如何校验同步的正确性?可以采用我们开源的 redis-full-check。

  • 支持版本:支持 2.8-5.0 版本的同步,此外还支持 codis,支持云下到云上,云上到云上,云上到云下(阿里云目前支持主从版),其他云到阿里云等链路,帮助用户灵活构建混合云场景。

  • 断点续传。支持断开后按 offset 恢复,降低因主备切换、网络抖动造成链路断开重新同步拉取全量的性能影响。


RedisShake 执行过程

  1. 启动 Redis-shake 进程,这个进程模拟了一个 Redis 实例,Redis-shake 的基本原理就是模拟一个 Slave 从节点加入源 Redis 集群,然后进行增量的拉取(通过 psync 命令)。

  2. Redis-shake 进程和数据迁出的源实例进行数据的全量拉取同步,并回放,这个过程和 Redis 主从实例的全量同步是类似的。如下图所示。


详细分析上述同步原理

  1. 源 Redis 服务实例相当于主库,Redis-shake 相当于从库,它会发送 psync 指令给源 Redis 服务实例。

  2. 源 Redis 实例先把 RDB 文件传输给 Redis-shake ,Redis-shake 会把 RDB 文件发送给目的实例。

  3. 源实例会再把增量命令发送给 Redis-shake ,Redis-shake 负责把这些增量命令再同步给目的实例。


如果源端是集群模式,只需要启动一个 redis-shake 进行拉取,同时不能开启源端的 move slot 操作。如果目的端是集群模式,可以写入到一个结点,然后再进行 slot 的迁移,当然也可以多对多写入。


目前,redis-shake 到目的端采用单链路实现,对于正常情况下,这不会成为瓶颈,但对于极端情况,qps 比较大的时候,此部分性能可能成为瓶颈,后续我们可能会计划对此进行优化。另外,redis-shake 到目的端的数据同步采用异步的方式,读写分离在 2 个线程操作,降低因为网络时延带来的同步性能下降。

Redis-Shake 安装使用

主要有两种方式:下载 Release 版本的可执行二进制包、下载源码文件进行编译操作这两种方式。

下载 Release 版本的可执行二进制包

Download from Release



点击下载就可以进行直接使用 Redis-Shake 服务。

下载源码文件进行编译操作

除了直接下载可执行包之外,还可以下载源码之后,可以进行运行 build.sh 文件执行进行编译源码,生成可执行包。可以根据上面的下载中 source code 进行下载。



或者可以针对于 Git 进行 clone 源码仓库,如下所示。


git clone https://github.com/alibaba/RedisShakecd RedisShakesh build.sh
复制代码

运行 Redis-Shake 服务

首先如果需要进行同步和重放,则需要进行编辑 sync.toml 文件以及编辑 restore.toml.


  • redis-shake 支持三种数据迁移模式:sync、restore 和 scan:

  • 快速开始:数据迁移(使用 sync 模式)

  • 快速开始:从 dump.rdb 恢复数据(使用 restore 模式)

  • 快速开始:数据迁移(使用 scan 模式)

  • 使用 filters 做数据清洗

  • 运行日志

  • 运行监控


启动同步 sync 运行机制

我们打开或者编辑 sync.toml

sync.toml 文件内容

当我们编辑 sync.toml 文件之后,可以进行配置我们实际情况下的 source 源 redis 实例以及 target 目标 redis 实例。之后可以配置对应的 cpu 和相关性能的配置。下面针对于配置进行相关的配置介绍


type = "sync" # 同步机制实现
[source] # 源Redis服务实例version = 5.0 # 填写Redis源服务版本, 例如:2.8, 4.0, 5.0, 6.0, 6.2, 7.0, ...。address = "127.0.0.1:6379" # 源Redis服务实例 地址+端口username = "" # 如果Redis没有配置ACL,则可以不填写,否则需要填写用户名 password = "" # 如果Redis没有配置ACL,则可以不填写,否则需要填写密码tls = false # 是否开启tls安全机制elasticache_psync = "" # 是否支持AWS的elasticache
[target]type = "standalone" # 选择Redis的类型:"standalone:单机模式" or "cluster:集群模式"version = 5.0 # 填写Redis源服务版本, 例如:2.8, 4.0, 5.0, 6.0, 6.2, 7.0, ...。# 如果目标Redis服务实例属于cluster集群模式, 那么可以写入其中一个节点的地址和端口.# redis-shake 会通过`cluster nodes` 命令获取其他的节点地址和端口address = "127.0.0.1:6380" # 填写的对应的ip加端口username = "" # 如果Redis没有配置ACL,则可以不填写,否则需要填写用户名 password = "" # 如果Redis没有配置ACL,则可以不填写,否则需要填写密码tls = false # 是否开启tls安全机制
[advanced]dir = "data" # 数据同步的存储目录
# 设置使用的最大CPU核心数, 如果设置了0 代表着 使用 runtime.NumCPU() 实际的cpu cores数量ncpu = 4
# 开启pprof性能检测的port, 0代表着禁用pprof_port = 0
# 开启metric port端口, 0代表着禁用metrics_port = 0
# log的相关设置log_file = "redis-shake.log" # 设置对应的日志文件名称log_level = "info" # debug, info or warn # 设置对应的日志级别log_interval = 5 # in seconds # 日志打印频次
# redis-shake gets key and value from rdb file, and uses RESTORE command to# create the key in target redis. Redis RESTORE will return a "Target key name# is busy" error when key already exists. You can use this configuration item# to change the default behavior of restore:# panic: redis-shake will stop when meet "Target key name is busy" error.# rewrite: redis-shake will replace the key with new value.# ignore: redis-shake will skip restore the key when meet "Target key name is busy" error.rdb_restore_command_behavior = "rewrite" # restore的操作类型:panic, rewrite or skip
# pipeline的大小数量阈值pipeline_count_limit = 1024
# Client query buffers accumulate new commands. They are limited to a fixed# amount by default. This amount is normally 1gb.target_redis_client_max_querybuf_len = 1024_000_000
# In the Redis protocol, bulk requests, that are, elements representing single# strings, are normally limited to 512 mb.target_redis_proto_max_bulk_len = 512_000_000
复制代码

Redis 单机实例同步到 Redis 单机实例

修改 sync.toml,改为如下配置。


[source]address = "ip:6379"password = ""
[target]type = "standalone"address = "ip:6379"password = "r-bbbbb:xxxxx"
复制代码

启动 redis-shake:

./redis-shake sync.toml
复制代码

Redis 单机实例同步到 Redis 集群实例

修改 sync.toml,改为如下配置:


[source]address = "r-aaaaa.redis.zhangbei.rds.aliyuncs.com:6379"password = "r-aaaaa:xxxxx"
[target]type = "cluster"address = "192.168.0.1:6379" # 这里写集群中的任意一个节点的地址即可password = "r-ccccc:xxxxx"
复制代码
启动 redis-shake:
./redis-shake sync.toml
复制代码

Redis 集群实例同步到 Redis 集群实例

方法 1:手动起多个 redis-shake

集群 C 有四个节点:


  • 192.168.0.1:6379

  • 192.168.0.2:6379

  • 192.168.0.3:6379

  • 192.168.0.4:6379


把 4 个节点当成 4 个单机实例,参照单机到集群 部署 4 个 redis-shake 进行数据同步。不要在同一个目录启动多个 redis-shake,因为 redis-shake 会在本地存储临时文件,多个 redis-shake 之间的临时文件会干扰,正确做法是建立多个目录。

方法 2:借助 cluster_helper.py 启动

脚本cluster_helper.py可以方便启动多个 redis-shake 从集群迁移数据,效果等同于方法 1。


注意


源端有多少个分片,cluster_helper.py 就会起多少个 redis-shake 进程,所以如果源端分片数较多的时候,需要评估当前机器是否可以承担这么多进程。


cluster_helper.py 异常退出的时候,可能没有正常退出 redis-shake 进程,需要 ps aux | grep redis-shake 检查。


每个 redis-shake 进程的执行日志记录在 RedisShake/cluster_helper/data/xxxxx 中,反馈问题请提供相关日志。


依赖


Python 需要 python3.6 及以上版本,安装 Python 依赖:


cd RedisShake/cluster_helperpip3 install -r requirements.txt
复制代码


配置


修改 sync.toml:


type = "sync"
[source]address = "192.168.0.1:6379" # 集群 C 中任意一个节点地址password = "r-ccccc:xxxxx"
[target]type = "cluster"address = "192.168.1.1:6380" # 集群 D 中任意一个节点地址password = "r-ddddd:xxxxx"
复制代码


运行


cd RedisShake/cluster_helperpython3 cluster_helper.py ../redis-shake ../sync.toml
复制代码


  • 参数 1 是 redis-shake 可执行程序的路径

  • 参数 2 是配置文件路径

查看 redis-shake 的日志信息
[root@redis ~]# redis-shake ./redis-shake.toml2022-08-26 11:20:28 INF GOOS: linux, GOARCH: amd642022-08-26 11:20:28 INF Ncpu: 3, GOMAXPROCS: 32022-08-26 11:20:28 INF pid: 215042022-08-26 11:20:28 INF pprof_port: 02022-08-26 11:20:28 INF No lua file specified, will not filter any cmd.2022-08-26 11:20:28 INF no password. address=[127.0.0.1:6380]2022-08-26 11:20:28 INF redisWriter connected to redis successful. address=[127.0.0.1:6380]2022-08-26 11:20:28 INF no password. address=[127.0.0.1:6379]2022-08-26 11:20:28 INF psyncReader connected to redis successful. address=[127.0.0.1:6379]2022-08-26 11:20:28 WRN remove file. filename=[4200.aof]2022-08-26 11:20:28 WRN remove file. filename=[dump.rdb]2022-08-26 11:20:28 INF start save RDB. address=[127.0.0.1:6379]2022-08-26 11:20:28 INF send [replconf listening-port 10007]2022-08-26 11:20:28 INF send [PSYNC ? -1]2022-08-26 11:20:28 INF receive [FULLRESYNC 1db7c7618b6d0af25ffafb1645d4fba573624d02 0]2022-08-26 11:20:28 INF source db is doing bgsave. address=[127.0.0.1:6379]2022-08-26 11:20:28 INF source db bgsave finished. timeUsed=[0.09]s, address=[127.0.0.1:6379]2022-08-26 11:20:28 INF received rdb length. length=[194]2022-08-26 11:20:28 INF create dump.rdb file. filename_path=[dump.rdb]2022-08-26 11:20:28 INF save RDB finished. address=[127.0.0.1:6379], total_bytes=[194]2022-08-26 11:20:28 INF start send RDB. address=[127.0.0.1:6379]2022-08-26 11:20:28 INF RDB version: 82022-08-26 11:20:28 INF RDB AUX fields. key=[redis-ver], value=[4.0.14]2022-08-26 11:20:28 INF RDB AUX fields. key=[redis-bits], value=[64]2022-08-26 11:20:28 INF RDB AUX fields. key=[ctime], value=[1661484028]2022-08-26 11:20:28 INF RDB AUX fields. key=[used-mem], value=[1897096]2022-08-26 11:20:28 INF RDB repl-stream-db: 02022-08-26 11:20:28 INF RDB AUX fields. key=[repl-id], value=[1db7c7618b6d0af25ffafb1645d4fba573624d02]2022-08-26 11:20:28 INF RDB AUX fields. key=[repl-offset], value=[0]2022-08-26 11:20:28 INF RDB AUX fields. key=[aof-preamble], value=[0]2022-08-26 11:20:28 INF RDB resize db. db_size=[1], expire_size=[0]2022-08-26 11:20:28 INF send RDB finished. address=[127.0.0.1:6379], repl-stream-db=[0]2022-08-26 11:20:28 INF start save AOF. address=[127.0.0.1:6379]2022-08-26 11:20:28 INF AOFWriter open file. filename=[0.aof]2022-08-26 11:20:29 INF AOFReader open file. aof_filename=[0.aof]2022-08-26 11:20:33 INF syncing aof. allowOps=[0.20], disallowOps=[0.00], entryId=[0], unansweredBytesCount=[0]bytes, diff=[0], aofReceivedOffset=[0], aofAppliedOffset=[0]2022-08-26 11:20:38 INF syncing aof. allowOps=[0.20], disallowOps=[0.00], entryId=[1], unansweredBytesCount=[0]bytes, diff=[0], aofReceivedOffset=[14], aofAppliedOffset=[14]2022-08-26 11:20:43 INF syncing aof. allowOps=[0.00], disallowOps=[0.00], entryId=[1], unansweredBytesCount=[0]bytes, diff=[0], aofReceivedOffset=[14], aofAppliedOffset=[14]2022-08-26 11:20:48 INF syncing aof. allowOps=[0.20], disallowOps=[0.00], entryId=[2], unansweredBytesCount=[0]bytes, diff=[0], aofReceivedOffset=[28], aofAppliedOffset=[28]
复制代码




用户头像

洛神灬殇

关注

🏆 InfoQ写作平台-签约作者 🏆 2020-03-25 加入

【个人简介】酷爱计算机科学、醉心编程技术、喜爱健身运动、热衷悬疑推理的“极客达人” 【技术格言】任何足够先进的技术都与魔法无异 【技术范畴】Java领域、Spring生态、MySQL专项、微服务/分布式体系和算法设计等

评论

发布
暂无评论
【Redis技术探索】「数据迁移实战」手把手教你如何实现在线+离线模式进行迁移Redis数据实战指南(在线同步数据)_redis_洛神灬殇_InfoQ写作社区