写点什么

OpenMLDB vs Redis 内存占用量测试报告

  • 2024-04-03
    新加坡
  • 本文字数:2236 字

    阅读完需:约 7 分钟

OpenMLDB vs Redis 内存占用量测试报告

1. 背景

OpenMLDB 是一款开源的高性能全内存 SQL 数据库,在时序数据存储、实时特征计算等方面都有很多创新和优化。Redis 是业界最流行的内存存储数据库,广泛应用于缓存等高性能在线场景。虽然二者应用场景不尽相同,但作为都是使用内存作为存储介质的数据库,希望通过对相同数据行数下的内存占用量进行测试对比,让客户直观了解二者在内存资源上的消耗占比。

2. 测试环境

本次测试基于物理机部署(40C250G * 3),硬件信息如下。CPU:Intel(R) Xeon(R) CPU E5-2630 v4 @ 2.20GHzProcessor:40 CoresMemory:250 GStorage:HDD 7.3T * 4


软件版本具体如下。

3. 测试方法

使用 Java 开发测试工具,使用 OpenMLDB Java SDK 和 Jedis,分别向 OpenMLDB 和 Redis 插入相同的数据,对比两者的内存占用情况。因为两者支持的数据类型和数据存储方式的不同,实际数据插入方式有一定的差异。因为特征数据都是有时序的,为了尽可能贴近用户的实际使用情况,我们设计了两种测试方式。

3.1 方法一:随机生成数据数据集

设计每一个测试数据集都有 m 个 key 作为主键,每个 key 可能有 n 个不同的 value(模拟时序性)。简单起见,这里 value 就只用 1 个字段表示,可以通过配置参数分别控制 key 和 value 字段长度。对应到 OpenMLDB,创建一个包含( key,value)两列数据的测试表,以每一个 key:value 作为一条数据,插入测试表中。对应到 Redis,以每个 key 作为键,以这个 key 对应的多个 value 组合为 zset,存储到 Redis 中。

3.1.1 举例

计划测试 100 万(记为 1M)个 key,每个 key 对应有 100 条时序数据。则实际存储时,OpenMLDB 中存储的实际数据量为 1M * 100 = 100M,即 1 亿条数据。而 Redis 中,则是存储 1M 个键,每个 key 对应的 value 为包含 100 个成员的 zset。

3.1.2 可配置参数

3.1.3 操作步骤(复现路径)

  1. 部署 OpenMLDB 和 Redis;部署可以使用容器化部署或者使用软件包在物理机上直接部署,经过对比,两者无明显差异。下边以容器化部署为例进行举例描述。i. OpenMLDB:

  2. 镜像:docker pull 4pdosc/openmldb:0.8.5;

  3. 文档:https://openmldb.ai/docs/zh/main/quickstart/openmldb_quickstart.html;ii. Redis:

  4. 镜像:docker pull redis:7.2.4

  5. 文档:https://hub.docker.com/_/redis

  6. 拉取测试代码;

  7. 修改配置

  8. 配置文件:src/main/resources/memory.properties [link]

  9. 配置说明:必须确认 REDIS_HOST_PORT 和 ZK_CLUSTER 配置与实际测试环境一致, 其它配置为测试数据量相关配置,请按需配置。注意:如果数据量过大,测试耗时会比较长。

  10. 运行测试:【github benchmark Readme 中相关路径】

  11. 查看输出结果;

3.2 方法二:使用开源数据集 TalkingData

为了使结果更具说服力,覆盖更多的数据类型,也便于复现和对比结果,我们也设计使用开源数据集进行测试。数据集为 OpenMLDB 典型案例 TalkingData(广告欺诈检测数据集)。这里使用 TalkingData 的 train 数据集,其获取方式如下:



方法一略有不同,TalkingData 数据集包含多列数据,包含字符串、数字和时间类型。为了让存储和使用更符合实际应用场景,这里设计使用 TalkingData 的 ip 列作为 key 进行存储。对应到 OpenMLDB 中,即创建一个和 TalkingData 数据集对应的数据表,为 ip 列创建索引(OpenMLDB 默认为第一列创建索引)。对应到 Redis,以 ip 为键,以其他列数据的 JSON 字符串组成 zset 进行存放(TalkingData 作为时序数据,存在多行数据具有相同 ip 的情况)。

3.2.1 举例

3.2.2 可配置参数

3.2.3 操作步骤(复现路径)

  1. 部署 OpenMLDB 和 Redis;同 3.1.3,这里不再重复。

  2. 拉取测试代码;

  3. 修改配置

  • 配置文件:src/main/resources/memory.properties [link]

  • 配置说明:

  1. 确认 REDIS_HOST_PORT 和 ZK_CLUSTER 配置与实际测试环境一致;

  2. 修改 TALKING_DATASET_PATH(默认使用 resources/data/talking_data_sample.csv);

  3. 获取测试数据文件并放到 resources/data 目录下,和 TALKING_DATASET_PATH 配置路径一致;

  4. 运行测试:【github benchmark Readme 中相关路径】

  5. 查看输出结果;

4. 测试结果

4.1 随机数据集测试结果


4.1.1 结论

在前述实验条件下,存储同样数量的数据,OpenMLDB(内存表模式)的内存使用量相对于 Redis 少 30% 以上。

4.2 TalkingData 数据集测试结果

4.2.1 结果


4.2.2 结论

得益于 OpenMLDB 对数据的压缩效果,在 TalkingData train 数据集上, 截取小批量数据时,OpenMLDB 相对于 Redis 的内存使用量,大幅降低 74.77%。随着测试用数据量的增加,因为 TalkingData train 数据集本身的特点, 向 Redis 中存储时,存在大量的重复 key 的情况,OpenMLDB 相对于 Redis 的存储优势有所减小。直到将 TalkingData train 数据集全部存入数据库,OpenMLDB 相对于 Redis,内存减少 45.66%。

5. 结论

在开源数据集 TalkingData 上,存储相同量级的数据,OpenMLDB 相对于 Redis,内存使用量减少 45.66%。即便是 在纯字符串数据集上,OpenMLDB 相对于 Redis 也能减少 30% 以上的内存占用。由于 OpenMLDB 采用了紧凑的行编码格式,各种数据类型在存储相同数据量时都得到了优化。这种优化不仅在全内存数据库中减少了内存占用,降低了服务成本,而且通过与主流内存数据库 Redis 进行存储测试比较,进一步展示了 OpenMLDB 项目在内存占用和服务总体成本(TCO)中拥有更优势的表现。

相关阅读

  • OpenMLDB 官网:https://openmldb.ai/OpenMLDB

  • OpenMLDB GitHub 主页 https://github.com/4paradigm/OpenMLDB

  • OpenMLDB 文档 https://openmldb.ai/docs/zh/

  • 微信交流群

用户头像

AI for every developer,AI for everyone 2021-06-21 加入

还未添加个人简介

评论

发布
暂无评论
OpenMLDB vs Redis 内存占用量测试报告_人工智能_第四范式开发者社区_InfoQ写作社区