自学内容网 自学内容网

阿里dataworks数据集成同步Mongodb数据到阿里

背景

数据入仓需求,来源数据类型为MongoDB,需要同步到阿里ODPS且历史数据同步完毕后设置增量同步。

不需要考虑来源数据schema,整条数据同步到ODPS中存入

同步单个数据集合

Step 1 准备工作

配置MongoDB数据源
在这里插入图片描述

Step 2 创建集成任务

在这里插入图片描述

Step 3 字段配置

1、固定字段配置
{"name":"_id","type":"string"}
{"name":"col_string","type":"string"}
{"name":"col_int32","type":"long"}
{"name":"col_int32_min","type":"long"}

在这里插入图片描述

2、Combine类型

在这里插入图片描述

2.1 保留全部信息-全部字段作为一个字段入仓

如果我不想要具体细分某个字段,想要全部字段

{"name":"col_combine","type":"combine"}

在这里插入图片描述

2.2 保留全部信息 - 拆分个别字段字段

所有数据中,我想要拆除2个字段,其余的所有数据仍旧保留下来,那么可以结合上面两个方法

{"name":"_id","type":"string"}
{"name":"timestamp","type":"string"}
{"name":"col_combine","type":"combine"}

在这里插入图片描述

在这里插入图片描述

多个集合同步

参考文档

“DataWorks支持哪些MongoDB数据同步能力_大数据开发治理平台 DataWorks(DataWorks)-阿里云帮助中心.” Aliyun.com, 18 Apr. 2023, help.aliyun.com/zh/dataworks/user-guide/mongodb-data-source?spm=a1z3jh.13523495.0.0.713f6242HRd1Vh#section-7am-fsh-gum. Accessed 15 Oct. 2024.

“如何通过数据集成将MongoDB的数据离线同步至MaxCompute_大数据开发治理平台 DataWorks(DataWorks)-阿里云帮助中心.” Aliyun.com, 22 Feb. 2023, help.aliyun.com/zh/dataworks/user-guide/use-a-batch-synchronization-node-to-read-data-from-a-mongodb-data-source?spm=a2c4g.11186623.0.i15. Accessed 15 Oct. 2024.


原文地址:https://blog.csdn.net/qq_16018407/article/details/142991582

免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!