从 AutoMQ Kafka 导出数据到 Databend
作者:韩山杰
Databend Cloud 研发工程师
https://github.com/hantmac
Databend是使用 Rust 研发、开源的、完全面向云架构、基于对象存储构建的新一代云原生数据仓库,为企业提供湖仓一体化、计 算和存储分离的大数据分析平台。
本文将介绍如何通过 bend-ingest-kafka 将数据从 AutoMQ for Kafka 导入 Databend。
本文中提及的 AutoMQ Kafka 术语,均特指安托盟丘(杭州)科技有限公司通过 GitHub AutoMQ 组织下开源的 automq-for-kafka 项目。
环境准备
准备 Databend Cloud 以及测试数据
首先到 Databend Cloud 开启你的 Warehouse ,并在 worksheet 中创建数据库库和测试表:
准备 AutoMQ Kafka 环境和测试数据
参考 部署 AutoMQ 到 AWS▸ 部署好 AutoMQ Kafka 集群,确保 AutoMQ Kafka 与 StarRocks 之间保持网络连通。
在 AutoMQ Kafka 中快速创建一个名为 example_topic 的主题并向其中写入一条测试 JSON 数据,可以通过以下步骤实现:
创建 Topic:
使用 Apache Kafka 命令行工具来创建主题。你需要有 Kafka 环境的访问权限,并且确保 Kafka 服务正在运行。以下是创建主题的命令:
注意:执行命令时,需要将 topic 和 bootstarp-server 替换为实际使用的 Kafka 服务器地址。
创建 topic 之后可以用以下命令检查 topic 创建的结果。
生成测试数据:
生成一条简单的 JSON 格式的测试数据,和前文的表需要对应。
写入测试数据
使用 Kafka 的命令行工具或者编程方式将测试数据写入到 example_topic
。以下是使用命令行工具的一个示例:
使用如下命令可以查看刚写入的 topic 数据:
创建 bend-ingest-databend job
bend-ingest-kafka 能够监控 kafka 并将数据批量写入 Databend Table。
部署 bend-ingest-kafka
之后,即可开启数据导入 job。
注意:将 kafka_broker_list 替换为实际使用的 Kafka 服务器地址。
参数说明
databend-dsn
Databend Cloud 提供的连接到 warehouse 的 DSN,可以参考该文档 获取。
batch-size
bend-ingest-kafka
会积攒到 batch-size 条数据再触发一次数据同步。
验证数据导入
到 Databend Cloud worksheet 中查询 automq_db.users
表,可以看到数据已经从 AutoMq 同步到 Databend Table。
关于 Databend
Databend 是一款开源、弹性、低成本,基于对象存储也可以做实时分析的新式数仓。期待您的关注,一起探索云原生数仓解决方案,打造新一代开源 Data Cloud。
👨💻 Databend Cloud:databend.cn
📖 Databend 文档:databend.rs/
💻 Wechat:Databend
✨ GitHub:github.com/datafuselab…
版权声明: 本文为 InfoQ 作者【Databend】的原创文章。
原文链接:【http://xie.infoq.cn/article/e92f98ac76091f23a27844ebf】。文章转载请联系作者。
评论