【YashanDB 知识库】DataX 迁移 Hive 到崖山分布式
作者:YashanDB
- 2025-02-11 广东
本文字数:1537 字
阅读完需:约 5 分钟
概述
本文主要介绍通过 Datax 实现 Hive 数据迁移到崖山分布式。
环境
源 Hive 版本:3.1.3
目标 YashanDB 版本:23.2.3.100
建表脚本
-- hive
CREATE TABLE IF NOT EXISTS product(
product_no char(5),
product_name varchar(30),
cost double,
price duble
)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\001'
STORED AS textfile;
-- yashandb
CREATE TABLE product
(
product_no CHAR(5),
product_name VARCHAR2(30),
cost NUMBER,
price NUMBER
);
复制代码
hive 表和 DataX 数据类型映射

hive 同步到崖山 job 配置
{
"job": {
"content": [
{
"reader": {
"name":"hdfsreader",
"parameter":{
"column":[
{
"index":0,
"type":"string"
},
{
"index":1,
"type":"string"
},
{
"index":2,
"type":"double"
},
{
"index":3,
"type":"double"
}
],
"defaultFS":"hdfs://127.0.0.1:8020",
"encoding":"UTF-8",
"fieldDelimiter":"\u0001",
"fileType":"text",
"path":"/usr/hive/warehouse/sales.db/product"
}
},
"writer": {
"name": "yashandbwriter",
"parallel": {
"binder": 6
},
"parameter": {
"batchError": true,
"column":[
"PRODUCT_NO",
"PRODUCT_NAME",
"COST",
"PRICE"
],
"connection": [
{
"jdbcUrl": "jdbc:yasdb://127.0.0.1:1688/yashandb",
"table": [
"SALES.PRODUCT"
]
}
],
"batchSize": 4096,
"batchesPerTxn": 1000,
"password": "sales",
"preSql": ["truncate table SALES.PRODUCT"],
"session": [],
"username": "sales",
"writeMode": "bulkinsert"
}
}
}
],
"setting": {
"speed": {
"channel": "1"
}
}
}
}
复制代码
执行同步
python bin/datax.py job/hive2yashandb.json
划线
评论
复制
发布于: 刚刚阅读数: 3
版权声明: 本文为 InfoQ 作者【YashanDB】的原创文章。
原文链接:【http://xie.infoq.cn/article/a6a55b88bb2f586c50b700c25】。文章转载请联系作者。

YashanDB
关注
全自研国产新型大数据管理系统 2022-02-15 加入
还未添加个人简介
评论