【Python】数据管道与ETL处理：使用Python的Airflow库

🕗 发布于 2024-11-05 14:37 python etl 开发语言

数据管道与ETL处理：使用Python的Airflow库

数据驱动的业务决策如今无处不在，而数据的获取、清洗、转换和加载 (ETL) 是实现这种决策的基础。数据管道的作用在于将数据从不同源采集、清洗并集中处理，为分析提供可靠的数据支持。Apache Airflow 是一个基于 Python 的强大调度和编排工具，专为构建数据管道设计，支持自动化和可视化 ETL 过程，是现代数据工程领域的主力工具之一。

本文将探讨如何使用 Airflow 构建数据管道，介绍其核心概念和技术细节，并通过一个完整的案例演示 Airflow 的实际应用。
在这里插入图片描述

1. 数据管道与 ETL 简介

数据管道 (Data Pipeline) 是一个将数据从一个或多个数据源提取、转换并加载到目标位置（例如数据仓库）的过程。ETL 是数据管道的一种重要模式，代表 Extract-Transform-Load：

Extract：从不同的源（数据库、API、文件等）提取数据。
Transform：清洗并转换数据，确保数据质量并满足分析需求。
Load：将数据加载到数据仓库、数据湖等目标位置，为分析和报告提供服务。

构建数据管道需要应对数据量大、源头多样化、处理复杂等挑战。Airflow 是一款开源的工作流管理平台，能够帮助工程师高效设计、调度、管理和监控数据管道。
在这里插入图片描述

2. Apache Airflow 简介

Apache Airflow 是由 Airbnb 开发的任务调度和工作流管理系统，以可视化、模块化和可扩展性强著称。其特点包括：

基于 DAG（有向无环图，Directed Acyclic Graph）来定义任务流
任务调度器，支持基于时间和事件的调度
丰富的操作符（Operators）支持多种数据源和任务
可扩展的插件系统，便于集成其他服务
监控与告警，实时追踪任务状态

在 Airflow 中，数据管道是以代码的形式定义的，这种“代码即数据管道” (Pipeline-as-Code) 的方式，使得数据管道的设计和管理更加灵活和清晰。
在这里插入图片描述

3. Airflow 的核心概念

在实际使用 Airflow 前，我们需要理解一些核心概念。

3.1 DAG（有向无环图）

DAG 是 Airflow 中的基本单位，它由一组任务组成，这些任务通过依赖关系定义执行顺序。DAG 的无环性确保任务不会形成死循环。

3.2 Task（任务）和 Operator（操作符）

Task 是 DAG 中的节点，代表一个操作步骤。Airflow 提供多种 Operator 用于定义不同类型的任务，例如：

PythonOperator：运行 Python 函数
BashOperator：执行 Bash 命令
MySqlOperator、PostgresOperator：执行 SQL 查询
HttpOperator：发起 HTTP 请求
EmailOperator：发送电子邮件

此外，Airflow 还允许用户定义自定义 Operator，以便更好地满足业务需求。

3.3 Sensor（传感器）

Sensor 是一种特殊的 Operator，通常用于等待某些事件的发生，例如文件的创建、数据库中数据的更新等。它会持续监控某一条件，直到条件满足才会继续执行下一个任务。

3.4 XCom（跨任务通信）

XCom 是 Airflow 中任务间数据共享的机制，允许任务间传递小量数据，例如将某个任务的输出传递给另一个任务作为输入。
在这里插入图片描述

4. 安装与配置 Airflow

在构建 Airflow 数据管道之前，我们需要先完成环境配置。

4.1 环境安装

可以使用 Docker 来部署 Airflow，以便快速完成配置。首先，我们确保 Docker 和 Docker Compose 已安装，然后运行以下命令来启动 Airflow 容器：

curl -LfO 'https://airflow.apache.org/docs/apache-airflow/2.6.1/docker-compose.yaml'
docker-compose up airflow-init  # 初始化数据库
docker-compose up  # 启动 Airflow

在浏览器中访问 http://localhost:8080，可以进入 Airflow 的 Web UI，使用默认的 admin/admin 登录。

4.2 配置 DAG 文件路径

Airflow 会在默认的 dags 文件夹中查找 DAG 文件。用户可以通过设置 AIRFLOW__CORE__DAGS_FOLDER 环境变量，指定自定义的 DAG 文件路径。
在这里插入图片描述

5. 使用 Airflow 构建 ETL 数据管道：实战案例

下面我们通过一个简单的 ETL 案例，展示如何使用 Airflow 实现数据提取、转换和加载过程。

5.1 案例介绍

假设我们有一个关于天气数据的公开 API，每小时生成一个 CSV 文件。我们需要定期从 API 获取数据，将数据转换为适合存储的格式，并将其加载到数据库中。

5.2 构建 DAG 文件

创建一个名为 etl_weather_data.py 的文件并放入 dags 目录中。
编写以下代码来定义 DAG 结构：

from airflow import DAG
from airflow.operators.python import PythonOperator
from airflow.providers.http.sensors.http import HttpSensor
from airflow.providers.postgres.operators.postgres import PostgresOperator
from airflow.utils.dates import days_ago
import requests
import pandas as pd
from io import StringIO

# 默认参数
default_args = {
    'owner': 'airflow',
    'start_date': days_ago(1),
    'retries': 1,
}

# 定义提取数据的函数
def extract_data():
    url = "http://example.com/weather.csv"
    response = requests.get(url)
    if response.status_code == 200:
        return response.text
    else:
        raise ValueError("Data extraction failed!")

# 定义转换数据的函数
def transform_data(ti):
    raw_data = ti.xcom_pull(task_ids='extract_data')
    data = pd.read_csv(StringIO(raw_data))
    data['temp_celsius'] = (data['temp_fahrenheit'] - 32) * 5.0/9.0  # 转换温度
    return data.to_csv(index=False)

# 定义加载数据的函数
def load_data(ti):
    transformed_data = ti.xcom_pull(task_ids='transform_data')
    df = pd.read_csv(StringIO(transformed_data))
    # 连接数据库并加载数据，省略具体连接代码
    print("Data loaded to the database")

# 创建 DAG 实例
with DAG('etl_weather_data', default_args=default_args, schedule_interval='@hourly') as dag:

    # 检查 API 可用性
    is_api_available = HttpSensor(
        task_id='is_api_available',
        http_conn_id='weather_api',
        endpoint='/weather.csv',
        timeout=10,
        retries=3
    )

    # 提取数据
    extract_data_task = PythonOperator(
        task_id='extract_data',
        python_callable=extract_data
    )

    # 转换数据
    transform_data_task = PythonOperator(
        task_id='transform_data',
        python_callable=transform_data
    )

    # 加载数据
    load_data_task = PythonOperator(
        task_id='load_data',
        python_callable=load_data
    )

    # 定义任务依赖关系
    is_api_available >> extract_data_task >> transform_data_task >> load_data_task

5.3 代码详解

is_api_available：首先，我们使用 HttpSensor 检查 API 是否可用。
extract_data_task：通过 PythonOperator 使用自定义的 extract_data 函数从 API 获取数据。
transform_data_task：将原始温度数据从华氏度转换为摄氏度。
load_data_task：将转换后的数据加载到数据库中。

5.4 在 Web UI 中监控 DAG

在 Airflow 的 Web UI 中，导航到 “DAGs” 页面，启用 etl_weather_data DAG。点击 DAG 名称可以看到任务流，查看执行情况、日志以及任务状态。
在这里插入图片描述

6. 定义连接：Airflow 的连接管理

在 Airflow 中，HttpSensor 使用 http_conn_id 配置了 weather_api，可以通过 Web UI 中的“Admin” > “Connections”来管理连接：

选择 Add a new record。
设置 Conn Id 为 weather_api，选择 Conn Type 为 HTTP，并输入 API 基本信息和认证参数。

7. Airflow 进阶：常见用法与扩展

7.1 提高任务并发性

Airflow 支持设置 concurrency 和 max_active_runs 来提高 DAG 的并发性。例如，通过配置 dag_concurrency 限制一个 DAG 中的最大任务数，从而避免过多任务对资源

的争夺。

7.2 任务重试和告警

通过设置 retries 和 retry_delay 参数，可以为任务配置重试策略。我们还可以为任务失败配置通知：

default_args = {
    'owner': 'airflow',
    'start_date': days_ago(1),
    'email': ['your_email@example.com'],
    'email_on_failure': True,
    'retries': 1,
}

7.3 自定义 Operator

Airflow 支持自定义 Operator，便于创建复用性高的任务。例如可以自定义一个上传文件的 S3UploadOperator，使得上传任务更灵活。
在这里插入图片描述

8. 总结

在数据驱动的时代，数据管道和 ETL 是数据处理的核心。通过 Airflow，我们可以轻松定义、调度和管理复杂的数据管道，并可视化地监控任务的执行状态。本文介绍了 Airflow 的基本概念、安装配置、核心功能，并通过一个完整的 ETL 案例展示了 Airflow 的实际应用。

Airflow 是一个强大的开源工具，在数据工程和数据分析领域得到了广泛应用。希望通过这篇文章，你能够更好地理解如何使用 Airflow 构建高效、稳定的数据管道，从而提升数据处理的自动化和可靠性。
在这里插入图片描述

原文地址：https://blog.csdn.net/liaoqingjian/article/details/143486277

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：细腻的链接：C++ list 之美的解读
下一篇：Unity性能优化（简略版）

造纸厂会用到哪些自动化备品备件
需要注意的是，不同规模和类型的造纸厂所需的自动化备品备件可能有所不同。因此，在选择备品备件时，应根据造纸厂的实际情况和需求进行选购。
阅读更多2024-11-06
数据库管理-第256期 Oracle DB 23.6新特性一览（20241031）
Oracle DB 23ai是下一个LTS版本，与以往Oracle DB版本功能固定不同，23ai（包括19c）任然在不断扩展新的特性。
阅读更多2024-11-06
Ubuntu 安装CUDA, cuDNN, TensorRT（草稿）
Ubuntu 安装CUDA, cuDNN, TensorRT（草稿）
阅读更多2024-11-06
解决 Ubuntu ‘InRelease is not valid yet’ 报错：内网源 apt update 详细教程
在不联网的 Ubuntu 系统上使用内网源时，如果出现报错，通常是因为系统时间不准确导致的。我通过修正系统时间，使其与当前实际时间保持一致，解决了这个问题。对于长期处于内网环境的服务器，建议配置内网
阅读更多2024-11-06
Visual Studio 2019下载安装使用教程
想下载Visual Studio 2019，去官网找发现官网的2019版本不可用，可能是官网想让大家都用2022版本，所以2019版本已经不开放下载了，无奈有的还必须用2019版本，所以这里保存了20
阅读更多2024-11-06
SpringMVC总结我的学习笔记
MVC是模型(Model)、视图(View)、控制器(Controller)的简写，是一种软件设计规范。是将业务逻辑、数据、显示分离的方法来组织代码。MVC主要作用是降低了视图与业务逻辑间的双向偶合。
阅读更多2024-11-06
处理后的视频如何加上音频信息？
总方案：原来模型对图像进行每帧处理，保留后的视频自然失去了audio信息，因此，原输出video加上audio即可，也采用ffmpeg处理。imageio库用于读取和写入视频文件，并且你正在使用模型处
阅读更多2024-11-06
【C/C++】字符/字符串函数（0）——由ctype.h提供
如果它的参数符合下列条件就返回真。这里我简单介绍了11种。
阅读更多2024-11-06
【k8s】-Pod镜像拉取失败问题
前置准备需要安装上述的方式进行创建镜像仓库。
阅读更多2024-11-06
[CKS] K8S Admission Set Up
最近准备花一周的时间准备CKS考试，在准备考试中发现有一个题目关于Admission。
阅读更多2024-11-06