调度系统：使用 Apache Airflow 管理和调度 Couchbase SQL 脚本的实际例子

🕗 发布于 2024-12-10 05:56 apache sql 数据库

假设场景如下：

每天定时执行一组 Couchbase SQL 脚本，用于数据同步、聚合和清洗。

脚本包括：

同步数据到 Couchbase 集群。

执行数据聚合查询。

清理过期数据。

要求：

支持任务依赖管理。

提供任务失败后的重试机制。

支持日志和运行状态的监控。

使用 Airflow 实现

Airflow 提供了强大的调度和任务依赖管理能力，可以将上述流程定义为一个 DAG（有向无环图）。

创建 Couchbase SQL 脚本

创建三个 SQL 脚本：

sync_data.sql：

INSERT INTO bucket-name (KEY, VALUE)
SELECT META().id, new_data.*
FROM source-bucket new_data
WHERE META().id NOT IN (SELECT RAW META().id FROM bucket-name);

aggregate_data.sql：

SELECT category, COUNT(*) AS count
FROM bucket-name
WHERE type = “product”
GROUP BY category;

cleanup_expired_data.sql：

DELETE FROM bucket-name
WHERE expiration_date < NOW_STR();

安装 Couchbase 的 Python 客户端

通过 pip 安装所需的 Couchbase 依赖：

pip install couchbase

定义 Airflow DAG 和任务

couchbase_workflow.py：

from airflow import DAG

from airflow.operators.python import PythonOperator

from datetime import datetime, timedelta

from couchbase.cluster import Cluster, ClusterOptions

from couchbase_core.cluster import PasswordAuthenticator

Couchbase 连接函数

def execute_couchbase_query(sql_file_path):
# 连接 Couchbase 集群
cluster = Cluster(
‘couchbase://localhost’,
ClusterOptions(PasswordAuthenticator(‘username’, ‘password’))
)
bucket = cluster.bucket(‘bucket-name’)
query_service = cluster.query_indexes()

# 读取并执行 SQL 脚本
with open(sql_file_path, 'r') as file:
    query = file.read()
result = query_service.query(query)
print(f"Executed query from {sql_file_path}: {result}")

定义默认参数

default_args = {
‘owner’: ‘admin’,
‘depends_on_past’: False,
‘email_on_failure’: True,
‘email’: [‘admin@example.com’],
‘retries’: 2,
‘retry_delay’: timedelta(minutes=5),
}

定义 DAG

with DAG(
dag_id=‘couchbase_sql_workflow’,
default_args=default_args,
description=‘A workflow to execute Couchbase SQL scripts’,
schedule_interval=‘0 3 * * *’, # 每天凌晨 3 点运行
start_date=datetime(2024, 1, 1),
catchup=False,
tags=[‘couchbase’, ‘sql’],
) as dag:

# 任务 1: 同步数据
sync_data_task = PythonOperator(
    task_id='sync_data',
    python_callable=execute_couchbase_query,
    op_args=['/path/to/sql_scripts/sync_data.sql']
)

# 任务 2: 数据聚合
aggregate_data_task = PythonOperator(
    task_id='aggregate_data',
    python_callable=execute_couchbase_query,
    op_args=['/path/to/sql_scripts/aggregate_data.sql']
)

# 任务 3: 清理过期数据
cleanup_data_task = PythonOperator(
    task_id='cleanup_data',
    python_callable=execute_couchbase_query,
    op_args=['/path/to/sql_scripts/cleanup_expired_data.sql']
)

# 定义任务依赖
sync_data_task >> aggregate_data_task >> cleanup_data_task

部署 DAG 到 Airflow

将脚本保存为 couchbase_workflow.py 并放置到 Airflow 的 DAG 文件夹中（通常是 /airflow/dags）。

确保 Airflow 服务正常运行：

airflow webserver
airflow scheduler

登录到 Airflow Web 界面，启用并监控 couchbase_sql_workflow。

优势分析

任务调度：通过 schedule_interval 定时调度任务，支持灵活的 Cron 表达式。

任务依赖管理：通过 >> 定义任务依赖，确保顺序执行。

重试机制：默认支持失败后的自动重试。

可观察性：Airflow 提供任务状态跟踪和日志记录，方便调试和监控。

扩展优化

参数化 SQL：可在 SQL 中加入参数，通过 PythonOperator 动态替换。

自定义连接器：使用 Airflow 的 Hook 构建更灵活的 Couchbase 连接器。

错误处理：在 Python 函数中捕获异常并记录到外部系统（如日志系统或监控平台）。

原文地址：https://blog.csdn.net/z1941563559/article/details/144346547

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：分布式搜索引擎之elasticsearch基本使用1
下一篇：couchbase 支持的数据格式以及与数据湖的对比

.NET(C#) 如何配置用户首选项及保存用户设置
.NET(C#) 如何配置用户首选项及保存用户设置
阅读更多2024-12-14
【最新】北大数字普惠金融指数数据集-省市县（2011-2023年）
郭峰,王靖一,王芳,孔涛,张勋,程志云.测度中国数字普惠金融发展:指数编制与空间特征[J].经济学(季刊),2020,19(04):1401-1418.时间跨度：省级和城市级指数时间跨度为2011-2
阅读更多2024-12-14
GESP202412 四级【Recamán】题解（AC）
a11ak−1−kkakak−1−kak−1k小杨想知道 Recamán 数列的前n项从小到大排序后的结果。手动计算非常困难，小杨希望你能帮他解决这个问题。
阅读更多2024-12-14
IDEA遇到EasyConnect中的网络资源无法访问的问题
版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。原文链接：https://blog.csdn.net/wanshanyu_/article/de
阅读更多2024-12-14
双目摄像头标定方法
此时已经完成标定，左下角为反投影误差，右边为外参可视化。将双目左右目拍的图像上传（左右目最好不少于20张）此时回到主页面，即可看到成功导出。把这些误差大的删除即可。
阅读更多2024-12-14
Servlet、omcat服务器架构与工作原理
Servlet是运行在服务器端的Java程序，它的主要职责之一是接收并处理来自客户端（如浏览器）的HTTP请求。当客户端发送一个请求到服务器时，Servlet可以解析请求中的信息，例如请求的URL路径
阅读更多2024-12-14
Vue生命周期钩子函数：深入解析与实践
作为高级Vue前端开发人员，对Vue组件的生命周期钩子函数有着深刻的理解是至关重要的。生命周期钩子函数是指在Vue组件的创建、更新、销毁等过程中，Vue自动调用的一系列方法。通过这些钩子函数，我们可以
阅读更多2024-12-14
安卓开发--使用android studio发布APP
app发布
阅读更多2024-12-14
数据结构与算法学习笔记----拓扑排序
@ author: 明月清了个风。
阅读更多2024-12-14
python 将数据保存到现有的Excel文件的新工作表
out_file = ‘query.xlsx’df1 = pd.DataFrame(out_data)若直接写入：df1.to_excel(out_file, index=False, sheet_n
阅读更多2024-12-14

调度系统：使用 Apache Airflow 管理和调度 Couchbase SQL 脚本的实际例子

Couchbase 连接函数

定义默认参数

定义 DAG

相关文章