编译pytorch——cuda-toolkit-nvcc
链接
- https://blog.csdn.net/wjinjie/article/details/108997692
- https://docs.nvidia.com/cuda/cuda-installation-guide-linux/#switching-between-driver-module-flavors
- https://forums.developer.nvidia.com/t/can-not-load-nvidia-drivers-on-ubuntu-22-10/239750
- https://blog.csdn.net/WCH_TechGroup/article/details/134943308
- https://linuxconfig.org/how-to-install-the-nvidia-drivers-on-ubuntu-22-04
- https://kimi.moonshot.cn/chat/cu3k0v495ebbjepepv70
ubuntu22.04-nvidia
- ubuntu22.04安装时添加Nvidia显卡驱动,仍然显示
- 查看
$ nvidia-smi
NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running.
- 查看nvcc
$ nvcc -V
找不到命令 “nvcc”,但可以通过以下软件包安装它:
sudo apt install nvidia-cuda-toolkit
- 安装后
cuda
CUDA(Compute Unified Device Architecture)是NVIDIA推出的一种并行计算平台和编程模型,允许开发者使用NVIDIA GPU(图形处理单元)进行通用计算任务。CUDA通过提供一系列的API和工具,使得开发者能够编写在GPU上高效运行的程序,从而显著提高计算密集型任务的性能。
CUDA的核心概念
GPU架构:
CUDA程序运行在NVIDIA的GPU上,这些GPU具有高度并行的架构,能够同时处理成千上万个线程。每个GPU由多个SM(Streaming Multiprocessor)组成,每个SM又包含多个CUDA核心。
线程和线程块:
CUDA程序中的计算任务被分解为多个线程(thread)。线程被组织成线程块(block),线程块又被组织成网格(grid)。线程块内的线程可以协作完成任务,而网格中的线程块则独立运行。
内存层次结构:
CUDA提供了多种内存类型,包括全局内存(global memory)、共享内存(shared memory)、寄存器(register)和常量内存(constant memory)。开发者需要合理管理这些内存,以优化程序性能。
CUDA核心和指令:
CUDA核心是GPU的基本计算单元,能够执行简单的算术和逻辑操作。CUDA程序中的指令被编译成GPU能够理解的指令集,由CUDA核心执行。
CUDA程序的结构
CUDA程序通常包含两部分:主机代码(host code)和设备代码(device code)。
主机代码:
主机代码运行在CPU上,负责初始化GPU、分配内存、传输数据、启动设备代码(kernel)和同步设备操作。主机代码通常使用C或C++编写。
设备代码(Kernel):
设备代码是运行在GPU上的并行计算任务,通常用__global__关键字修饰。Kernel函数由主机代码调用,并在GPU上并行执行。每个线程执行一次Kernel函数。
cuda-toolkit
CUDA Toolkit 是 NVIDIA 提供的一套开发工具和库,用于在 NVIDIA GPU 上进行并行计算。它为开发者提供了一系列的工具和API,使得开发者能够编写、编译、调试和优化在 GPU 上运行的 CUDA 程序。以下是 CUDA Toolkit 的主要功能和组成部分:
- 编译器和构建工具
nvcc:CUDA 编译器驱动程序,用于编译 CUDA 源代码(.cu 文件)并生成可执行文件或中间文件。
CUDA 构建工具:包括链接器、归档器等,用于构建复杂的 CUDA 项目。 - 运行时库
libcudart:CUDA 运行时库,提供了 CUDA 程序运行时所需的基本功能,如内存管理、设备管理、流和事件等。
libcudadevrt:CUDA 设备运行时库,提供了设备端的运行时支持。 - 数学和科学计算库
cuBLAS:CUDA 基本线性代数子程序库,提供了高效的线性代数运算,如矩阵乘法、向量运算等。
cuFFT:CUDA 快速傅里叶变换库,用于高效的傅里叶变换计算。
cuRAND:CUDA 随机数生成库,提供了多种随机数生成算法。
cuSOLVER:CUDA 稀疏线性代数库,用于解决稀疏线性系统和特征值问题。
cuSPARSE:CUDA 稀疏矩阵运算库,提供了高效的稀疏矩阵运算。 - 调试和分析工具
cuda-gdb:CUDA 调试器,用于调试 CUDA 程序,支持单步执行、断点设置、变量查看等功能。
nsight:NVIDIA 的性能分析工具,用于分析和优化 CUDA 程序的性能。
cuda-memcheck:内存检查工具,用于检测 CUDA 程序中的内存错误,如内存泄漏、越界访问等。 - 其他工具和库
NVIDIA Management Library (NVML):用于管理和监控 NVIDIA GPU 设备的库。
CUDA Samples:提供了一系列示例程序,帮助开发者快速上手 CUDA 编程。
CUDA Documentation:详细的文档和编程指南,帮助开发者理解和使用 CUDA Toolkit。
主要用途
高性能计算:
CUDA Toolkit 使开发者能够利用 NVIDIA GPU 的并行计算能力,显著提高计算密集型任务的性能。例如,物理模拟、气象预测、分子动力学模拟等。
机器学习和深度学习:
许多深度学习框架(如 TensorFlow、PyTorch)依赖 CUDA Toolkit 提供的高性能计算支持,加速神经网络的训练和推理过程。
图像和视频处理:
CUDA Toolkit 提供的库和工具可以用于实时图像处理、视频编码和解码,提高处理效率和性能。
数据分析:
大规模数据处理和分析任务可以利用 CUDA Toolkit 的并行计算能力,加速数据处理和分析过程。
nvcc
nvcc(NVIDIA CUDA Compiler Driver)是NVIDIA提供的CUDA编译器驱动程序,用于编译和链接CUDA代码。CUDA(Compute Unified Device Architecture)是NVIDIA推出的并行计算平台和编程模型,允许开发者使用NVIDIA GPU进行通用计算任务。
主要功能
- 编译CUDA源代码:
nvcc可以将CUDA源代码(.cu文件)编译成中间表示(IR)或直接编译成GPU可执行的二进制代码。
例如,编译一个简单的CUDA程序hello_world.cu:
nvcc hello_world.cu -o hello_world
- 链接CUDA对象文件:
nvcc可以链接多个CUDA对象文件(.o文件)生成可执行文件。
例如,链接多个对象文件:
nvcc -o my_program file1.o file2.o
- 支持多种编译选项:
nvcc提供了丰富的编译选项,用于优化代码、指定GPU架构、生成调试信息等。
例如,指定GPU架构(如sm_80表示Ampere架构):
nvcc -arch=sm_80 hello_world.cu -o hello_world
- 与主机编译器集成:
nvcc可以与主机编译器(如gcc、clang)集成,编译主机代码部分。
例如,编译包含主机代码和CUDA代码的程序:
nvcc -Xcompiler -fPIC hello_world.cu -o hello_world
- 基本用法
编译CUDA源文件:
nvcc -o output_file source_file.cu
- 编译并链接多个源文件:
nvcc -o output_file source1.cu source2.cu
- 生成中间文件:
nvcc -dc source_file.cu # 生成.ptx文件
nvcc -dlink source_file.o -o output_file # 链接.ptx文件
- 指定GPU架构:
nvcc -arch=sm_80 source_file.cu -o output_file # 指定Ampere架构
- 生成调试信息:
nvcc -g -G source_file.cu -o output_file # 生成调试信息
常见编译选项
-arch:指定GPU架构(如sm_35、sm_80)。
-o:指定输出文件名。
-dc:仅编译CUDA源文件,生成中间文件(.o)。
-dlink:链接中间文件生成可执行文件。
-g、-G:生成调试信息。
-Xcompiler:传递编译器选项给主机编译器。
示例
假设你有一个简单的CUDA程序hello_world.cu,内容如下:
#include <stdio.h>
__global__ void helloFromGPU() {
printf("Hello World from GPU!\n");
}
int main() {
printf("Hello World from CPU!\n");
helloFromGPU<<<1, 1>>>();
cudaDeviceSynchronize();
return 0;
}
你可以使用以下命令编译并运行这个程序:
nvcc -o hello_world hello_world.cu
./hello_world
输出结果应该是:
Hello World from CPU!
Hello World from GPU!
通过这些步骤,你可以使用nvcc编译和运行CUDA程序,充分利用NVIDIA GPU的强大计算能力。
原文地址:https://blog.csdn.net/shuia64649495/article/details/145156968
免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!