pytorch 同步机制

🕗 发布于 2024-09-22 19:52 pytorch 人工智能 python 机器学习 深度学习

pytorch 同步机制

在 PyTorch 中，当多个算子（operators）和内核（kernels）被并行执行时，PyTorch 通过 CUDA 的 流（streams） 和 事件（events） 机制来管理并发和同步。CUDA 是一个异步计算平台，计算任务会被放入一个队列中异步执行，PyTorch 为了确保不同算子之间的依赖关系正确，使用了流和事件来管理任务的调度和同步。

1. CUDA 流（Streams）和事件（Events）

CUDA 流

CUDA 流是一个任务队列，所有提交到同一个流中的操作会按照顺序执行，但是不同流中的操作可以并行执行。PyTorch 在默认情况下为每个设备（GPU）创建一个主流（default stream），所有的 CUDA 操作都会提交到该流中，并顺序执行。

如果你使用多个流，可以让不同的计算任务并行执行，避免阻塞。PyTorch 提供了 torch.cuda.Stream 来管理自定义的流。例如：

stream1 = torch.cuda.Stream()
stream2 = torch.cuda.Stream()

# 向stream1提交任务
with torch.cuda.stream(stream1):
    # 操作A将在stream1中执行
    output1 = model(input1)

# 向stream2提交任务
with torch.cuda.stream(stream2):
    # 操作B将在stream2中执行
    output2 = model(input2)

# 等待所有流完成任务
torch.cuda.synchronize()

CUDA 事件

CUDA 事件是用来标记和同步不同 CUDA 流的工具。例如，当一个算子在某个流中完成后，可以通过事件通知其他流，以便他们可以开始下一个依赖该算子的操作。PyTorch 提供了 torch.cuda.Event 进行同步。

stream1 = torch.cuda.Stream()
stream2 = torch.cuda.Stream()
event = torch.cuda.Event()

with torch.cuda.stream(stream1):
    output1 = model(input1)
    event.record()  # 在stream1中记录事件

with torch.cuda.stream(stream2):
    stream2.wait_event(event)  # 等待stream1中的事件完成
    output2 = model(input2)

torch.cuda.synchronize()

通过这种方式，PyTorch 可以管理不同算子和内核的同步，确保依赖关系被正确处理。

2. 多个算子的调度与同步

在 PyTorch 中，如果你使用单个 GPU 并且不显式创建 CUDA 流，所有的操作都会默认提交到同一个流中按顺序执行，因此不会存在同步问题。

但在更复杂的场景下，比如有多个 GPU，或者需要通过流并行执行不同的操作时，PyTorch 的 CUDA 流机制会自动帮你处理依赖和同步。通过使用流和事件，可以控制多个算子如何在不同的 CUDA 内核中同步执行。

依赖性管理：

默认流同步：如果多个算子提交到默认流中，它们会按照顺序依次执行，无需显式同步。
跨流依赖同步：使用事件（torch.cuda.Event）来记录某个流的完成状态，其他流可以等待该事件的完成后再继续执行。

例如，在下面的代码中，conv2d 和 relu 是在同一个流上顺序执行的，无需显式同步。但如果将它们放到不同的流中，则需要使用事件同步来确保 conv2d 在 relu 之前完成。

# 默认流中，算子会顺序执行，无需显式同步
output = F.conv2d(input, weight)
output = F.relu(output)

3. 内存拷贝与计算的同步

在 GPU 计算中，显存和 CPU 内存之间的数据拷贝也是异步执行的。PyTorch 使用 CUDA 同步机制 确保计算和数据传输之间的依赖关系：

当从 GPU 读取数据到 CPU 时，通常会自动触发同步，确保 GPU 计算已经完成。
PyTorch 还提供了 torch.cuda.synchronize() 来显式同步 GPU 和 CPU，确保所有的 CUDA 任务都已经完成。

例如：

output = model(input)
output_cpu = output.cpu()  # 这会自动同步，确保 GPU 计算完成后将结果拷贝到 CPU

4. 多 GPU 和分布式同步

在多 GPU 环境中，PyTorch 使用 NCCL (NVIDIA Collective Communications Library) 来管理多 GPU 之间的同步和通信。PyTorch 的 torch.nn.DataParallel 和 torch.nn.parallel.DistributedDataParallel 会自动处理多 GPU 之间的数据同步。

多 GPU 同步主要依赖 NCCL 库，它允许 GPU 之间通过 all_reduce、all_gather 等通信模式来同步梯度或数据，确保所有设备上的计算是同步的。

# 使用多个 GPU 同步执行任务
model = torch.nn.DataParallel(model)
output = model(input)  # 会自动将输入拆分到多个 GPU 上执行，并同步结果

Reference:

原文地址：https://blog.csdn.net/2303_77224751/article/details/142426250

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：java（3）数组的定义与使用
下一篇：springboot集成rabbitmq

云原生之运维监控实践-使用Prometheus与Grafana实现对Nginx和Nacos服务的监测
没有度量就没有改进，实际上，监控系统有以下两个客户：技术，业务。上述内容即是对技术组件的监控，方便技术方面的改进与优化。本文记录了在Docker环境下通过Prometheus和Grafana实现对Ng
阅读更多2024-11-17
GitLab 部署和配置指南
这篇文档详细介绍了GitLab部署的多个方面，包括配置内置Nginx、申请和自动续期HTTPS证书、通过FRP将内网服务映射到外部，以及在阿里云服务器上配置Nginx的反向代理。内容涵盖了FRP客户端
阅读更多2024-11-17
深度学习驱动的蛋白质设计技术与前沿实践-从基础到尖端应用
1、结构生成过程中的物理能量函数与约束2、基于Deep learning的预测模型和生成模型3、结构验证与性能评估五、RFdiffusion基于指定骨架的蛋白质结构设计核心知识点：利用用户提供的特定结
阅读更多2024-11-17
刘艳兵-DBA036-Oracle数据库中的触发器（Trigger）可以在以下哪种情况下自动执行？
刘艳兵-DBA036-Oracle数据库中的触发器（Trigger）可以在以下哪种情况下自动执行？
阅读更多2024-11-17
刘艳兵-DBA037-在ASM实例中，如下哪个参数是必须的？
刘艳兵-DBA037-在ASM实例中，如下哪个参数是必须的？
阅读更多2024-11-17
基于物联网的农业环境监测系统开发（本科毕业论文）
数据访问层通过封装MongoDB的API，提供统一的数据操作接口，确保数据的一致性和安全性。对于大量的监测数据，我们使用了时序数据库InfluxDB进行存储，InfluxDB在处理时序数据方面具有天然
阅读更多2024-11-17
大数据-226 离线数仓 - Flume 优化配置自定义拦截器拦截原理了拦截器实现 Java
前面FlumeAgent的配置使用了本地时间，可能导致数据存放的路径不正确。要解决上面的问题就需要使用自定义拦截器。Agent用于测试自定义拦截器，source => logger sink#
阅读更多2024-11-17
Flutter：key的作用原理（LocalKey ，GlobalKey）
第一段代码实现的内容：创建了3个块，随机3个颜色，每次点击按钮时，把第一个块删除。Flutter中的3棵树中，Widget树和Element树。中有这样一个方法，Flutter的增量渲染就是通过。旧的
阅读更多2024-11-17
vscode 关闭绑定元素隐式具有“any”类型这类错误
出现类型“never”上不存在属性“userName”。ts-plugin(2339) 配置该参数。在vue的项目里面，经常看到any类型的报错，真的很烦的。“noImplicitAny”: fals
阅读更多2024-11-17
Vue 3 插槽详解
默认插槽（Default Slot）用于在子组件中设置一个默认插槽内容，当父组件没有提供内容时会使用这个默认内容。默认插槽非常适合在组件内部提供基本的布局和结构。具名插槽（Named Slot）用于定
阅读更多2024-11-17

pytorch 同步机制