Pytorch使用教程(12)-如何进行并行训练？

🕗 发布于 2025-01-20 11:12 深度学习 pytorch python 人工智能

在使用GPU训练大模型时，往往会面临单卡显存不足的情况。这时，通过多卡并行的形式来扩大显存是一个有效的解决方案。PyTorch主要提供了两个类来实现多卡并行：数据并行torch.nn.DataParallel（DP）和模型并行torch.nn.DistributedDataParallel（DDP）。本文将详细介绍这两种方法。

一、数据并行（torch.nn.DataParallel）

基本原理
数据并行是一种简单的多GPU并行训练方式。它通过多线程的方式，将输入数据分割成多个部分，每个部分在不同的GPU上并行处理，最后将所有GPU的输出结果汇总，计算损失和梯度，更新模型参数。
使用方法
使用torch.nn.DataParallel非常简单，只需要一行代码就可以实现。以下是一个示例：

import torch
import torch.nn as nn

# 检查是否有多个GPU可用
if torch.cuda.device_count() > 1:
    print("Let's use", torch.cuda.device_count(), "GPUs!")
    # 将模型转换为DataParallel对象
    model = nn.DataParallel(model, device_ids=range(torch.cuda.device_count()))

优缺点
‌优点‌：代码简单，易于使用，对小白比较友好。
‌缺点‌：GPU会出现负载不均衡的问题，一个GPU可能占用了大部分负载，而其他GPU却负载较轻，导致显存使用不平衡。

二、模型并行（torch.nn.DistributedDataParallel）

基本原理
torch.nn.DistributedDataParallel（DDP）是一种真正的多进程并行训练方式。每个进程对应一个独立的训练过程，且只对梯度等少量数据进行信息交换。每个进程包含独立的解释器和GIL（全局解释器锁），因此可以充分利用多GPU的优势，实现更高效的并行训练。
使用方法

使用torch.nn.DistributedDataParallel需要进行一些额外的配置，包括初始化GPU通信方式、设置随机种子点、使用DistributedSampler分配数据等。以下是一个详细的示例：

初始化环境

import torch
import torch.distributed as dist
import argparse

def parse():
    parser = argparse.ArgumentParser()
    parser.add_argument('--local_rank', type=int, default=0)
    args = parser.parse_args()
    return args

def main():
    args = parse()
    torch.cuda.set_device(args.local_rank)
    dist.init_process_group(
        'nccl', init_method='env://'
    )
    device = torch.device(f'cuda:{args.local_rank}')

设置随机种子点

import numpy as np

# 固定随机种子点
seed = np.random.randint(1, 10000)
np.random.seed(seed)
torch.manual_seed(seed)
torch.cuda.manual_seed_all(seed)

使用DistributedSampler分配数据
python
Copy Code
from torch.utils.data.distributed import DistributedSampler

train_dataset = ...  # 你的数据集
train_sampler = DistributedSampler(train_dataset, shuffle=True)
train_loader = torch.utils.data.DataLoader(
    train_dataset, batch_size=opts.batch_size, sampler=train_sampler
)

初始化模型

model = mymodel().to(device)
model = torch.nn.parallel.DistributedDataParallel(model, device_ids=[args.local_rank])

训练循环
python
Copy Code
optimizer = optim.SGD(model.parameters(), lr=0.001, momentum=0.9)
criterion = nn.CrossEntropyLoss()

for ep in range(total_epoch):
    train_sampler.set_epoch(ep)
    for inputs, labels in train_loader:
        inputs, labels = inputs.to(device), labels.to(device)
        optimizer.zero_grad()
        outputs = model(inputs)
        loss = criterion(outputs, labels)
        loss.backward()
        optimizer.step()

优缺点

优点‌：每个进程对应一个独立的训练过程，显存使用更均衡，性能更优。
缺点‌：代码相对复杂，需要进行一些额外的配置。

三、对比与选择

对比

特点	torch.nn.DataParallel	torch.nn.DistributedDataParallel
并行方式	多线程	多进程
显存使用	可能不均衡	更均衡
性能	一般	更优
代码复杂度	简单	复杂

选择建议

对于初学者或快速实验，可以选择torch.nn.DataParallel，因为它代码简单，易于使用。
对于需要高效并行训练的场景，建议选择torch.nn.DistributedDataParallel，因为它可以充分利用多GPU的优势，实现更高效的训练。

四、小结

通过本文的介绍，相信读者已经对PyTorch的多GPU并行训练有了更深入的了解。在实际应用中，可以根据模型的复杂性和数据的大小选择合适的并行训练方式，并调整batch size和学习率等参数以优化模型的性能。希望这篇文章能帮助你掌握PyTorch的多GPU并行训练技术。

原文地址：https://blog.csdn.net/evm_doc/article/details/145244408

免责声明：本站文章内容转载自网络资源，如侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：使用 Helm 部署 RabbitMQ 高可用集群（HA）
下一篇：Django简介与虚拟环境安装Django

C++ 时间操作chrono库(实现系统时间与字符串时间相互转换)
C++11提供了chrono模版库,实现了一系列时间相关的操作（时间长度、系统时间和计时器）头文件：#include<chrono>命名空间：std::chrono 在计算机应用上，20
阅读更多2025-01-21
【Redis 源码】压缩链表结构
通过上面的描述，清晰的看出ziplist的由来，组成，以及如何创建一个ziplist对象，以及部分源码的理解如果读者想了解更多的ziplist更多源码，可阅读ziplist.c源码，里面涵盖了
阅读更多2025-01-21
Spring AI入门示例HelloWorld
通过以上项目验证，证明了在Java语言中，基于SpringBoot+SpringAI开源框架，并使用阿里云国内大模型服务，在SpringBoot工程中集成并使用AI大模型服务是初步可行的。
阅读更多2025-01-21
SpringBoot实现异步调用的方法
方法优点缺点。
阅读更多2025-01-21
Spring Boot 实战：轻松实现文件上传与下载功能
总结本文所介绍的 Spring Boot 文件上传与下载功能的实现步骤、关键要点以及注意事项。强调在实际开发过程中，安全性与稳定性是至关重要的因素，需要开发者充分考虑各种边界情况并进行合理的处理。同时
阅读更多2025-01-21
携程API接口详解：如何高效获取景点详情及代码示例
在当今数字化时代，旅游行业对数据的依赖日益加深。携程作为国内领先的在线旅游服务平台，提供了丰富的API接口，帮助开发者轻松获取酒店、景点等旅游相关信息。本文将详细介绍如何使用携程API接口获取景点详情
阅读更多2025-01-21
Redis 数据存储类型
Redis 提供了丰富的数据存储类型，能够支持多种场景的需求，如缓存、队列、统计、实时数据处理等。选择合适的数据结构，可以极大提高应用的性能和灵活性。
阅读更多2025-01-21
大模型学习笔记 - 第一期 - Milvus向量数据库
大模型学习笔记-向量数据库
阅读更多2025-01-21
linux usb 驱动 - hcd 驱动框架
本文基于君正平台（SoC）和其集成的 DWC2（DesignWare® USB 2.0 Controller），对 USB 子系统的核心流程进行了详细分析。文章主要聚焦于以下几个方面：USB 设备描述
阅读更多2025-01-21
广播网络实验
构建星性拓扑下的广播网络，实现hub各端口的数据广播，验证网络的连通性并测试网络效率。
阅读更多2025-01-21

Pytorch使用教程(12)-如何进行并行训练？

一、数据并行（torch.nn.DataParallel）

二、模型并行（torch.nn.DistributedDataParallel）

三、对比与选择

四、小结

相关文章