对pytorch的底层nccl库进行插桩

🕗 发布于 2024-11-27 07:02 pytorch 人工智能 python

intro

本文记录了使用dlsym对系统内nccl库进行插桩，然后再pytorch的脚本上运行呈现。环境配置可见使用系统内NCCL环境重新编译Pytorch

插桩代码

// nccl_instrument.c
#include <nccl.h>
#include <stdio.h>
#include <dlfcn.h>

// 定义一个函数指针来指向原始的 ncclBroadcast 实现
static ncclResult_t (*original_ncclBroadcast)(const void *, void *, size_t, ncclDataType_t, int, ncclComm_t, cudaStream_t) = NULL;

extern "C" ncclResult_t ncclBroadcast(const void *sendbuff, void *recvbuff, size_t count,
                                      ncclDataType_t datatype, int root, ncclComm_t comm, cudaStream_t stream)
{
    // 加载原始的 ncclBroadcast 函数
    if (!original_ncclBroadcast)
    {
        original_ncclBroadcast = (ncclResult_t(*)(const void *, void *, size_t, ncclDataType_t, int, ncclComm_t, cudaStream_t))dlsym(RTLD_NEXT, "ncclBroadcast");
        if (!original_ncclBroadcast)
        {
            fprintf(stderr, "Error loading original ncclBroadcast: %s\n", dlerror());
            return ncclSystemError;
        }
        else
        {
            printf("Successfully change the Point!\n");
        }
    }

    // 打印广播操作的信息
    printf("NEW![Instrumentation] ncclBroadcast called with count: %zu, root: %d\n", count, root);

    // 调用原始的 ncclBroadcast 函数
    return original_ncclBroadcast(sendbuff, recvbuff, count, datatype, root, comm, stream);
}

这是一个简单的对广播的插桩。

需要先把他编译为动态链接库（这里需要手动链接一下cuda的相应lib和include地址）：

 g++ -shared -fPIC -o libnccl_instrument.so nccl_instrument.cpp -L/usr/local/cuda/lib64 -lnccl -lcudart -I/usr/local/cuda/include

完事后可以先用一个test测试一下：：

// test_nccl.c
#include <nccl.h>
#include <stdio.h>
#include <cuda_runtime.h>

int main()
{
    ncclComm_t comm;
    int size = 1; // 单机单 GPU 时可以设置为 1
    int rank = 0; // 当前进程的 rank 为 0

    // 初始化 NCCL 通信
    ncclUniqueId id;
    ncclGetUniqueId(&id);
    ncclCommInitRank(&comm, size, id, rank);

    // 分配 GPU 内存
    int *sendbuff, *recvbuff;
    cudaMalloc((void **)&sendbuff, sizeof(int) * size);
    cudaMalloc((void **)&recvbuff, sizeof(int) * size);

    // 假设 root 节点是 0
    int root = 0;

    // 广播调用
    ncclBroadcast(sendbuff, recvbuff, size, ncclInt, root, comm, 0);

    // 释放资源
    ncclCommDestroy(comm);
    cudaFree(sendbuff);
    cudaFree(recvbuff);

    printf("Broadcast test completed.Successful!\n");
    return 0;
}

编译：

nvcc -o test_nccl test_nccl.c -lnccl -lcudart

运行（使用PRE_LOAD环境变量优先链接自定义的库）：

LD_PRELOAD=./libnccl_instrument.so ./test_nccl

输出如下：

Successfully change the Point!
NEW![Instrumentation] ncclBroadcast called with count: 1, root: 0
Broadcast test completed.Successful!

再拿一个简单的pytorch 脚本测试：

import os
import torch
import torch.distributed as dist

import ctypes
import os


# 设置通信环境
os.environ['MASTER_ADDR'] = 'localhost'
os.environ['MASTER_PORT'] = '29500'

# 初始化进程组
rank = 0  # 当前进程的 rank
world_size = 1  # 总进程数
dist.init_process_group("nccl", rank=rank, world_size=world_size)

# 创建张量
x = torch.zeros(6)  # 初始张量为全零

if torch.cuda.is_available():
    # 将张量移动到 GPU 上
    x = x.cuda()
    if rank == 0:
        # 只有 rank 0 初始化张量
        x = torch.arange(1, 7).float().cuda()

    # 广播张量，从 rank 0 广播到所有进程
    dist.broadcast(x, src=0)

    # 打印广播后的结果
    print(f"Rank {rank} broadcasted tensor: {x}")

运行的时候我试了好久，奇怪的是如果只是指定：

LD_PRELOAD=/mnt/d/Ubuntu_Code/nccl_PI/libnccl_instrument.so  python PI_test.py

就会报错，会发现链接器找不到broadcast符号，但是在c代码里边就不会，如果没有同时 PRELOAD 原始 NCCL 库，dlsym 会因为找不到符号而失败，导致 undefinedsymbol:ncclBroadcast。

我怀疑是：动态链接器无法自动加载原始 NCCL 库，PyTorch 的动态加载机制可能不依赖 ld.so 自动加载原始 NCCL 库。必须手动通过 LD_PRELOAD 明确加载 NCCL。改为下面的指令执行：

LD_PRELOAD=/mnt/d/Ubuntu_Code/nccl_PI/libnccl_instrument.so:/usr/local/cuda/lib64/libnccl.so python PI_test.py

结果如下：

Successfully change the Point!
NEW![Instrumentation] ncclBroadcast called with count: 6, root: 0
Rank 0 broadcasted tensor: tensor([1., 2., 3., 4., 5., 6.], device='cuda:0')

原文地址：https://blog.csdn.net/m0_63511417/article/details/144059913

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：【系统架构设计师】真题论文: 论软件系统架构评估（包括解题思路和素材）
下一篇：java——Tomcat连接池配置NIO、BIO、APR

第八章 Spring Boot快速⼊⻔ —— Spring Boot整合thymeleaf模板引擎
Thymeleaf 是一个现代服务器端的 Java 模板引擎，用于Web环境以及非Web环境。它能够处理HTML、XML、JavaScript、CSS甚至纯文本。Thymeleaf的主要目标是提供一种
阅读更多2024-11-27
PostgreSQL外键全解析：从概念到实践的进阶指南
在数据库设计中，外键就像一位严格的“秩序管理员”，它不仅把各个表之间的关系管理得井井有条，还负责保障数据的完整性。PostgreSQL作为开源数据库中的佼佼者，自然也为我们提供了灵活强大的外键约束机制
阅读更多2024-11-27
C语言数据结构——详细讲解《栈》
在 C 语言编程中，数据结构是非常重要的一部分，它能够帮助我们更高效地组织和处理数据。今天，我们就来详细讲解一下其中的栈数据结构。栈的结构通常由一个数组或链表来实现。在数组实现中，栈顶通常由一个变量来
阅读更多2024-11-27
【设计模式】【行为型模式（Behavioral Patterns）】之命令模式（Command Pattern）
命令模式是一种行为设计模式，它将请求封装成对象，从而使你可以用不同的请求对客户进行参数化、队列请求或将请求日志化，同时支持可撤销的操作。通过这种方式，可以将请求发送者与接收者解耦，使得两者之间不再直接
阅读更多2024-11-27
Docker 部署 MongoDB
本文档详细介绍了使用 Docker 部署 MongoDB 的步骤。包括从 Docker Hub 拉取 MongoDB 镜像、准备运行环境、配置 MongoDB 参数、启动容器、创建用户以及进行连接测试
阅读更多2024-11-27
03：（手撸HAL+CubeMX）串口UART篇一
然后CPU就会进入if语句里面去执行关闭串口接收中断。然后执行全部接收完成回调函数。若此时串口的DR还有数据，CPU也不会在进行将DR中的数据搬运到数组里了。
阅读更多2024-11-27
如何使用轻易云平台实现百胜ME3销售退货对接金蝶云星空
本次集成方案名为“百胜ME3销售退货对接金蝶销售退货”，旨在通过API接口实现百胜ME3中的销售退货数据自动抓取，并批量写入到金蝶云星空中。具体涉及的API包括百胜ME3的用于获取数据，以及金蝶云星空
阅读更多2024-11-27
服务器数据恢复—光纤存储FC硬盘数据恢复案例
服务器存储数据恢复环境：某品牌光纤存储上共有16块FC硬盘。存储上的卷映射到Linux操作系统上。Linux操作系统上运行Oracle数据库。服务器存储故障&检测：存储上2块硬盘故障灯亮起，存
阅读更多2024-11-27
jQuery-Json-AJAX-跨域
用于简化JavaScript代码开发主要作用：对于前端来说，写更少代码、做更多事情选择器事件及其事件绑定内置效果显示、隐藏、切换、动画等DOM操作1、获取元素的内容二、JSON1.简介作用：案例：
阅读更多2024-11-27
ubuntu安装conda
安装完成后，您可以创建新的 Conda 环境并安装您需要的 Python 版本或其他包。选择安装路径（默认安装路径是 $HOME/miniconda3，您可以按 Enter 使用默认路径，也可以选择其
阅读更多2024-11-27

对pytorch的底层nccl库进行插桩

intro

插桩代码

相关文章