主流大数据调度工具DolphinScheduler之数据采集

🕗 发布于 2024-07-20 20:09 大数据 hive etl工程师数据分析

今天继续给大家分享主流大数据调度工具DolphinScheduler，以及数据的ETL流程。

一：调度工具DS

主流大数据调度工具DolphinScheduler，

其定位：解决数据处理流程中错综复杂的依赖关系

任务支持类型：支持传统的shell任务，同时支持大数据平台任务调度：MR、Spark、SQL(mysql、postgresql、hive/sparksql)、python、procedure、sub_process。

二，数据ETL流程(调度流程)

今天分享一个把数据从人大金仓数据库采集到大数据hive的案例。

0，业务概念

数据采集：指的是从其他的数据库，Oracle，MySQL，kingbase里的数据同步到hive大数据。

采集原理：本次分享的数据采集，其底层实现逻辑是sqoop。

数据同步都是有严格的规范性。

1，先在数据库查询该表的数据信息

2，在hive里创建表以备数据同步用

红色方框里是从数据库同步过来的数据，

蓝色方框里是系统自动生成的数据。

3，确认hive该表暂无数据

4，首先创建工作流

5，配置工作流信息

6，参数设置

7，核心是脚本开发

注明源数据库系统名，数据库名，表名等。

sync_type = 1 是全量同步，传参到shell脚本里。

从其他数据库同步到hive大数据，名称都是有规范的。

可以看到target_tab_name，名字是由源系统名，源库名，源表名，给拼接起来的。

至于原理为什么说是sqoop，是因为sync_data_to_hive_ods.sh 里面调用的sqoop的数据同步方法。当然也可以在里面开发采用datax的数据同步方式。

8，执行之后，看日志

发现日志是成功的。

9，检查数据是否同步到hive数仓

10，仔细看看系统自动生成的数据长什么样

好啦，今天这篇主要介绍主流调度工具DS的数据采集的全流程，工作实战。

希望你看得尽兴，学得开心。不难，但很重要。

下次再见！

原文地址：https://blog.csdn.net/wowulita123/article/details/140467722

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：springcolud学习03Eureka
下一篇：堆的相关特点

UML概述、类图关系及连接线表示
继承和实现体现的是一种类与类、或者类与接口间的纵向关系;依赖关联聚合组合体现的是类与类、类与接口间的引用，即横向关系;这几种关系，所表现的强弱程度依次为：组合 > 聚合 > 关联 >
阅读更多2024-11-17
131. HTML标签遮挡Canvas画布事件
HTML元素标签外面div父元素遮挡了Canvas画布鼠标事件，会造成相机控件的旋转、缩放等操作无效，也有可能会影响你的射线拾取,等等任何与canvas画布有关的鼠标事件都有可能收到影响，不过这算是普
阅读更多2024-11-17
Scala-字符串（拼接、printf格式化输出等）-用法详解
Scala-字符串（拼接、printf格式化输出等）用法
阅读更多2024-11-17
c++原型模式（Prototype Pattern）
每个原型类实现自己的克隆方法，从而确保了对象的正确复制。
阅读更多2024-11-17
问题大集-01-kafka问题
1、Windows下启动单机kafka出现：系统找不到指定路径解决：是kafka不能识别本机的java环境（JVM），故需要指定java路径，进入kafka路径下的\bin\windows，找到：ka
阅读更多2024-11-17
【点云上采样】最近邻插值上采样算法增加点云密度
传感器采集到的点云比较稀疏，毕竟价位在那，好的太贵，买便宜的点又太稀，需要增加点云数据。
阅读更多2024-11-17
阮一峰科技爱好者周刊（第 325 期）推荐工具：一个基于 Next.js 的博客和 CMS 系统
近期，阮一峰在科技爱好者周刊第 325 期中推荐了一款开源工具——ReactPress，ReactPress一个基于 Next.js 的博客和 CMS 系统，可查看 demo站点。（@fecommun
阅读更多2024-11-17
js识别二维码
将二维码转换为链接
阅读更多2024-11-17
C 语言【单链表】
‌数据域用于存储实际的数据，而指针域则存储指向下一个节点的地址。单链表的特点包括动态存储、非连续存储、易于插入和删除。节点可以定义成一个结构体，每个节点中包含一个数据和下一个节点的地址。上面的结构体定
阅读更多2024-11-17
校园求职招聘系统（程序+数据库+报告）
基于Spring Boot框架实现的校园求职招聘系统，系统包含两种角色：管理员、用户,系统分为前台和后台两大模块
阅读更多2024-11-17