DolphinScheduler学习

🕗 发布于 2024-07-25 15:29 学习

1.查看文档

点击访问：https://dolphinscheduler.apache.org/zh-cn/docs
我们可以看到相关的文档简介里有

介绍

DolphinScheduler是Apache DolphinScheduler 是一个分布式易扩展的可视化DAG工作流任务调度开源系统。适用于企业级场景，提供了一个可视化操作任务、工作流和全生命周期数据处理过程的解决方案。

作用

Apache DolphinScheduler 旨在解决复杂的大数据任务依赖关系，并为应用程序提供数据和各种 OPS 编排中的关系。解决数据研发ETL依赖错综复杂，无法监控任务健康状态的问题。 DolphinScheduler 以 DAG（Directed Acyclic Graph，DAG）流式方式组装任务，可以及时监控任务的执行状态，支持重试、指定节点恢复失败、暂停、恢复、终止任务等操作。
我们是用来做seatunnel的文件同步操作研究需要使用这个

相关名词介绍

DAG

介绍

然后有对应的相关名词介绍：如DAG 全称 Directed Acyclic Graph，简称 DAG。工作流中的 Task 任务以有向无环图的形式组装起来，从入度为零的节点进行拓扑遍历，直到无后继节点为止。举例如下图：
在这里插入图片描述

下面是百度到对dag的理解
有向无环图（Directed Acyclic Graph，DAG）是一种特殊的有向图，它没有任何环路。这意味着从图中的任意一个顶点出发，不可能通过一系列有向边回到该顶点。

特性

有向性：图中的边有方向。
无环性：图中不存在任何环路，即不存在从某个顶点出发，经过若干条边又回到该顶点的路径。
应用
DAG在许多领域中有广泛的应用，包括：

任务调度：例如编译器的优化过程中，用DAG来表示指令的依赖关系，确保指令的执行顺序。
版本控制系统：如Git，使用DAG来表示提交历史，保证不同分支的提交历史可以正确地合并。
数据处理流水线：DAG可以用来表示数据处理的各个步骤及其依赖关系。
路径规划：例如在某些网络路由算法中，使用DAG来确保路径无环，从而避免路由循环。
例子

DAG 示例
plaintext
复制代码

A → B → D
↓   ↓
C → E

在这个例子中，没有任何路径可以从一个节点回到自身，因此它是一个DAG。

个人理解

DAG就是有向无环图中的一种特殊的有向图，即不存在从某个顶点出发，经过若干条边又回到该顶点的路径且图中的边有方向，用于定义和管理任务之间的依赖关系。工作流中的 Task 任务以有向无环图的形式组装起来，从入度为零的节点进行拓扑遍历，直到无后继节点为止。

DAG在DolphinScheduler中的作用

任务依赖管理：DAG用于定义任务之间的依赖关系，确保任务按正确的顺序执行。
工作流调度：利用DAG结构，DolphinScheduler可以高效地调度和管理复杂的工作流。
错误处理和重试：在DAG中，如果某个任务失败，可以定义错误处理和重试策略。

DolphinScheduler中的DAG实现

DolphinScheduler使用JSON格式来定义工作流的DAG。每个工作流定义中包含多个任务节点和它们之间的依赖关系。

流程定义：

通过拖拽任务节点并建立任务节点的关联所形成的可视化DAG

流程实例：

流程实例是流程定义的实例化，可以通过手动启动或定时调度生成。每运行一次流程定义，产生一个流程实例

任务实例：

任务实例是流程定义中任务节点的实例化，标识着某个具体的任务

任务类型：目前支持有 SHELL、SQL、SUB_PROCESS(子流程)、PROCEDURE、MR、SPARK、PYTHON、DEPENDENT(依赖)，同时计划支持动态插件扩展，注意：其中 SUB_PROCESS类型的任务需要关联另外一个流程定义，被关联的流程定义是可以单独启动执行的

调度方式：

系统支持基于 cron 表达式的定时调度和手动调度。命令类型支持：启动工作流、从当前节点开始执行、恢复被容错的工作流、恢复暂停流程、从失败节点开始执行、补数、定时、重跑、暂停、停止、恢复等待线程。其中恢复被容错的工作流和恢复等待线程两种命令类型是由调度内部控制使用，外部无法调用

定时调度：

系统采用 quartz 分布式调度器，并同时支持cron表达式可视化的生成

依赖：

系统不单单支持 DAG 简单的前驱和后继节点之间的依赖，同时还提供任务依赖节点，支持流程间的自定义任务依赖

优先级：

支持流程实例和任务实例的优先级，如果流程实例和任务实例的优先级不设置，则默认是先进先出

邮件告警：

支持 SQL任务查询结果邮件发送，流程实例运行结果邮件告警及容错告警通知

失败策略：

对于并行运行的任务，如果有任务失败，提供两种失败策略处理方式，继续是指不管并行运行任务的状态，直到流程失败结束。结束是指一旦发现失败任务，则同时Kill掉正在运行的并行任务，流程失败结束

补数：

补历史数据，支持区间并行和串行两种补数方式，其日期选择方式包括日期范围和日期枚举两种

模块介绍

dolphinscheduler-master master模块，提供工作流管理和编排服务。

dolphinscheduler-worker worker模块，提供任务执行管理服务。

dolphinscheduler-alert 告警模块，提供 AlertServer 服务。

dolphinscheduler-api web应用模块，提供 ApiServer 服务。

dolphinscheduler-common 通用的常量枚举、工具类、数据结构或者基类

dolphinscheduler-dao 提供数据库访问等操作。

dolphinscheduler-extract extract模块，包含master/worker/alert的sdk

dolphinscheduler-service service模块，包含Quartz、Zookeeper、日志客户端访问服务，便于server模块和api模块调用

安装

快速安装

第一次看的时候看的不说很懂安装模式，没认真看的话就只看到dokcer的安装模式，然后本人的开发环境docker问题，一大堆下载不下来，后面认真看了一下发现一种更简单的不用docker安装，外面也有很多安装教程不过都很麻烦我只是要快速搭建实现和了解一下。我们可以在快速上手里面的设置 Dolphinscheduler有个standalone server点击这个就有用安装包安装的快速教程。跳转页面是没有中文的我是用电脑win10字带Microsoft Edge中文翻译转成中文看的。你可以看到一个不需要任何配置的只需要下载一个 apache-dolphinscheduler-*-bin.tar.gz包解压启动bash ./bin/dolphinscheduler-daemon.sh start standalone-server然后等几秒后就可以访问
admin/dolphinscheduler123http://localhost:12345/dolphinscheduler/ui页面了

缺点

Standalone 只建议使用少于 20 个工作流，因为它默认使用内存 H2 数据库，ZooKeeper 测试服务器，任务过多可能会导致不稳定。当 Standalone 停止或重新启动时，内存中 H2 数据库将清理。要将 Standalone 用于 mysql 或 postgresql 等外部数据库

修改配置

如果你想用数据库mysql和pg增加数据容量点击到文档最下面有个数据库配置点击
datasource-setting 就可以找到对应的配置去修改对应的配置。

原文地址：https://blog.csdn.net/qq_24045275/article/details/140667693

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：SQL labs-SQL注入（五，使用sqlmap进行cookie注入）
下一篇：vue3学习记录1：emit的写法

如何构建安全可靠的 HarmonyOS 应用
本文将深入探讨 HarmonyOS App 的安全编码规范与最佳实践，帮助开发者在代码编写中避免常见的安全漏洞，如 SQL 注入、XSS攻击等。我们将提供具体的编码示例，并结合ArkUI和ArkTS实
阅读更多2024-11-16
js像循环数组那样循环一个数字，Array.from()
js像循环数组那样循环一个数字，Array.from()
阅读更多2024-11-16
【C++笔记】vector使用详解及模拟实现
vector的文档使用STL的三个境界：能用、明理、能扩展，下面学习vector，我们也按照这个境界去学习。vector是可以改变大小的数组序列容器，也就是数据结构的顺序表。构造函数声明接口说明vec
阅读更多2024-11-16
Java线程池：ThreadPoolExecutor原理解析
本文介绍了线程池的基本概念、主要参数、工作流程，以及 execute() 方法的源码分析，此外，还讨论了在实际应用中可能遇到的陷阱和问题。
阅读更多2024-11-16
1.两数之和-力扣（LeetCode）
1.两数之和-力扣（LeetCode）
阅读更多2024-11-16
Xss挑战（跨脚本攻击）
这里将script，on，src，data，href，进行了过滤，并且在尝试的时候关键字双写不能用了，那么这里直接选择不去闭合标签，直接使用伪协议，但是发现javascript也被拆开了，这里可以对伪
阅读更多2024-11-16
《Python 网络爬虫》
本文介绍了 Python 网络爬虫的基本概念、技术原理、常用工具以及实战案例，希望能够帮助读者快速掌握 Python 网络爬虫技术。在实际应用中，需要根据具体的需求选择合适的工具和方法，并注意遵守法律
阅读更多2024-11-16
UEFI学习（五）——启动框架
https://www.zhihu.com/question/36313402/answer/2398532123UEFI（统一可扩展固件接口）在启动过程主要有以下几个阶段：
阅读更多2024-11-16
【洛谷】T539820 202411A Giants
C++ LGR-207-Div.4】洛谷入门赛 #29 第一题
阅读更多2024-11-16
Python 正则表达式进阶用法：量词与范围
匹配前面的字符零次或多次，相当于“任意多次”。：匹配前面的字符一次或多次，相当于“至少一次”。?：匹配前面的字符零次或一次，相当于“可有可无”。{n}：匹配前面的字符n次。{n,}：匹配前面的字符至少
阅读更多2024-11-16