NVIDIA 完全过渡到开源 GPU 内核模块

🕗 发布于 2024-07-21 03:06 开源 gpu算力英伟达

借助 R515 驱动程序，NVIDIA 于 2022 年 5 月发布了一组 Linux GPU 内核模块，作为具有 GPL 和 MIT 双重许可的开源模块。初始版本以数据中心计算 GPU 为目标，GeForce 和 Workstation GPU 处于 alpha 状态。

当时，NVIDIA宣布后续版本将提供更强大、功能更齐全的 GeForce 和 Workstation Linux 支持，NVIDIA 开放内核模块最终将取代闭源驱动程序。

NVIDIA GPU 共享通用的驱动程序架构和功能集。适用于台式机或笔记本电脑的同一驱动程序可在云中运行世界上最先进的 AI 工作负载。对我们来说，恰到好处地做到这一点非常重要。

两年过去了，NVIDIA通过开源 GPU 内核模块实现了同等或更好的应用程序性能，并增加了大量新功能：

异构内存管理（HMM）
支持机密计算
Grace 平台的一致内存架构
还有更多…

NVIDIA现在正处于完全过渡到开源 GPU 内核模块的正确举措，NVIDIA将在即将发布的 R560 驱动程序版本中做出这一改变。

支持的 GPU

并非每个 GPU 都与开源 GPU 内核模块兼容。

对于 NVIDIA Grace Hopper 或 NVIDIA Blackwell 等尖端平台，必须使用开源 GPU 内核模块。这些平台不支持专有驱动程序。

对于来自 Turing、Ampere、Ada Lovelace 或 Hopper 架构的较新 GPU，NVIDIA 建议切换到开源 GPU 内核模块。

对于 Maxwell、Pascal 或 Volta 架构中较旧的 GPU，开源 GPU 内核模块与这些平台不兼容。需要继续使用 NVIDIA 专有驱动程序。

对于在同一系统中使用较旧和新 GPU 的混合部署，请继续使用专有驱动程序。

如果不确定，NVIDIA 会提供一个新的检测帮助程序脚本来帮助指导您选择哪个驱动程序。有关详细信息，请参阅本文后面的“使用安装帮助程序脚本”部分。

安装程序更改

通常，所有安装方法安装的驱动程序的默认版本都是从专有驱动程序切换到开源驱动程序。有几个特定方案值得特别注意：

使用 CUDA 元包的包管理器
运行文件
安装帮助程序脚本
包管理器详细信息
适用于 Linux 的 Windows 子系统
CUDA工具包

将包管理器与 CUDA 元包配合使用

使用包管理器（而不是 .run 文件）安装 CUDA Toolkit 时，安装CUDA 元包存在并且常用。通过安装顶级软件包，您可以安装 CUDA 工具包和关联的驱动程序版本的组合。例如，通过在 CUDA 12.5 发布时间范围内安装 cuda，您可以获得专有的 NVIDIA 驱动程序 555 以及 CUDA 工具包 12.5。

图 1 显示了此包结构。
在这里插入图片描述
以前，使用开源 GPU 内核模块意味着可以使用顶级元包。您必须安装特定于发行版的 NVIDIA 驱动程序开放包以及您选择的 cuda-toolkit-X-Y 包。

从 CUDA 12.6 版本开始，流程有效地切换了位置（图 2）。
图 1.CUDA Toolkit 12.6 之前的 CUDA 包

使用 runfile

如果您使用该文件安装 CUDA 或 NVIDIA 驱动程序，安装程序会查询您的硬件并自动为您的系统安装最适合的驱动程序。UI 切换也可用于在专有驱动程序和开源驱动程序之间进行选择，具体取决于您的选择。

如果通过 CUDA .run 文件并使用用户界面进行安装，则现在会看到类似于以下内容的菜单：
在这里插入图片描述

如果通过驱动程序 .run 文件进行安装，则会看到类似的选择（图 3）。
图3.新的 runfile 交互式选择（驱动程序安装程序）

您还可以使用命令行传递覆盖，以便在没有用户界面的情况下进行安装，或者如果您使用的是 Ansible 等自动化工具。

# sh ./cuda_12.6.0_560.22_linux.run --override --kernel-module-type=proprietary
 
# sh ./NVIDIA-Linux-x86_64-560.run --kernel-module-type=proprietary

使用安装帮助程序脚本

如前所述，如果您不确定要为系统中的 GPU 选择哪个驱动程序，NVIDIA 创建了一个帮助程序脚本来指导您完成选择过程。

要使用它，请先使用包管理器安装包，然后运行脚本：nvidia-driver-assistant

$ nvidia-driver-assistant

包管理器详细信息

为了获得一致的体验，NVIDIA 建议您使用包管理器来安装 CUDA 工具包和驱动程序。但是，不同发行版使用哪些包管理系统或软件包的结构的具体细节可能因特定发行版而异。

本部分概述了各种平台所需的特定详细信息、注意事项或迁移步骤。

apt：基于 Ubuntu 和 Debian 的发行版

运行以下命令：

$ sudo apt-get install nvidia-open

要在 Ubuntu 20.04 上使用 metapackage 进行升级，请先切换到打开内核模块：cuda

$ sudo apt-get install -V nvidia-kernel-source-open
 
$ sudo apt-get install nvidia-open

dnf：Red Hat Enterprise Linux、Fedora、Kylin、Amazon Linux 或 Rocky Linux

运行以下命令：

$ sudo dnf module install nvidia-driver:open-dkms

要在基于 dnf 的发行版上使用元包进行升级，必须禁用模块流：cuda

$ echo "module_hotfixes=1" | tee -a /etc/yum.repos.d/cuda*.repo
$ sudo dnf install --allowerasing nvidia-open
$ sudo dnf module reset nvidia-driver

zypper：SUSE Linux Enterprise Server 或 OpenSUSE

运行以下命令之一：

# default kernel flavor
$ sudo zypper install nvidia-open

# azure kernel flavor (sles15/x86_64)
$ sudo zypper install nvidia-open-azure

# 64kb kernel flavor (sles15/sbsa) required for Grace-Hopper
$ sudo zypper install nvidia-open-64k

包管理器摘要

为简化起见，我们以表格格式压缩了包管理器建议。驱动程序版本 560 和 CUDA 工具包 12.6 之后的所有版本都将使用这些打包约定。

发行版安装最新的安装特定版本Fedora/RHEL/Kylindnf module install nvidia-driver:open-dkmsdnf module install nvidia-driver:560-openopenSUSE/SLESzypper install nvidia-open{-azure,-64k}zypper install nvidia-open-560{-azure,-64k}Debian 的apt-get install nvidia-openapt-get install nvidia-open-560Ubuntu的apt-get install nvidia-openapt-get install nvidia-open-560表 1.包管理器安装建议

有关更多信息，请参阅 NVIDIA 数据中心驱动程序。

适用于 Linux 的 Windows 子系统

适用于 Linux 的 Windows 子系统（WSL）使用主机 Windows 操作系统中的 NVIDIA 内核驱动程序。您不应专门在此平台中安装任何驱动程序。如果使用的是 WSL，则无需进行任何更改或操作。

CUDA工具包

CUDA Toolkit 的安装通过包管理器保持不变。运行以下命令：

$ sudo apt-get/dnf/zypper install cuda-toolkit

更多信息
有关如何安装 NVIDIA 驱动程序或 CUDA 工具包的更多信息，包括在目前无法迁移到开源 GPU 内核模块时如何确保安装专有驱动程序，请参阅《CUDA 安装指南》中的驱动程序安装。

Github

https://github.com/NVIDIA/open-gpu-kernel-modules

NVIDIA Linux 开放 GPU 内核模块源代码
这是 NVIDIA Linux 开放 GPU 内核模块的源代码版本，版本 550.100。

如何构建

要构建：

make modules -j$(nproc)

要安装，请先卸载所有现有的 NVIDIA 内核模块。然后作为 root：

make modules_install -j$(nproc)

请注意，此处构建的内核模块必须与 GSP 一起使用固件和用户空间 NVIDIA GPU 驱动程序组件来自相应的 550.100 驱动程序版本。这可以通过安装来实现使用 .run 文件中的 NVIDIA GPU 驱动程序。例如，–no-kernel-modules

sh ./NVIDIA-Linux-[...].run --no-kernel-modules

支持的目标 CPU 体系结构

目前，内核模块可以针对 x86_64 或 aarch64 构建。如果是交叉编译，请在 make 命令行上设置以下变量：

TARGET_ARCH=aarch64|x86_64
CC
LD
AR
CXX
OBJCOPY

例如，

# compile on x86_64 for aarch64
make modules -j$(nproc)         \
    TARGET_ARCH=aarch64         \
    CC=aarch64-linux-gnu-gcc    \
    LD=aarch64-linux-gnu-ld     \
    AR=aarch64-linux-gnu-ar     \
    CXX=aarch64-linux-gnu-g++   \
    OBJCOPY=aarch64-linux-gnu-objcopy

其他构建旋钮

NV_VERBOSE - 将其设置为“1”以打印执行的每个完整命令; 否则，将打印简洁的“CC”行。

DEBUG - 将此值设置为“1”以将内核模块构建为调试。默认情况下，生成编译，不调试信息。这也使内核模块中的各种调试日志消息。

这些变量可以在 make 命令行上设置。例如，

make modules -j$(nproc) NV_VERBOSE=1

支持的工具链

任何相当现代的 GCC 或 Clang 版本都可用于构建内核模块。请注意，内核的内核接口层模块必须使用用于构建内核。

支持的 Linux 内核版本

NVIDIA 开放内核模块支持相同范围的 Linux 内核专有 NVIDIA 内核模块支持的版本。目前是 Linux 内核 3.10 或更高版本。

如何贡献

可以通过在 https://github.com/NVIDIA/open-gpu-kernel-modules 上创建拉取请求来做出贡献，我们将通过 GitHub 进行响应。

请注意，提交拉取请求时，系统将提示您接受贡献者许可协议。

该代码库与 NVIDIA 的专有驱动程序共享，并且各种对共享代码执行处理以生成源代码，即在这里发布。这对可预见的未来有几个影响：

GitHub 存储库将主要用作每个驱动程序的快照释放。
我们不希望能够为个人提供修订历史记录对 NVIDIA 的共享代码库所做的更改。可能会有每个驱动程序版本只有一个 Git 提交。
我们可能无法将个人贡献作为单独的贡献来反映 GitHub 存储库中的 git 提交。
由于代码在发布之前会经过各种处理，此处所做的贡献需要手动合并才能应用于共享代码库。因此，此处进行的大型重构更改可能难以合并并接受回共享代码库。如果你有大重构建议，请提前联系我们，以便我们进行协调。

如何报告问题

特定于 Open GPU 内核模块的问题可以在 https://github.com/NVIDIA/open-gpu-kernel-modules 存储库的“问题”部分。

此外，任何现有的错误报告场所都可用于通信 NVIDIA的问题，例如我们的论坛：

https://forums.developer.nvidia.com/c/gpu-graphics/linux/148

或 linux-bugs@nvidia.com。

请参阅“NVIDIA 联系信息和其他资源”部分的 NVIDIA GPU 驱动程序自述文件了解详情。

如果您符合以下条件，请参阅单独的 SECURITY.md 文档相信您已在此软件中发现了安全漏洞。

内核模块的内核接口和与操作系统无关的组件

NVIDIA的大多数内核模块都分为两个组件：

“与操作系统无关”的组件：这是每个内核模块的组件这与操作系统无关。
“内核接口层”：这是每个内核模块的组件特定于 Linux 内核版本和配置。

打包在 NVIDIA .run 安装包中时，与操作系统无关的组件以二进制形式提供：它很大且耗时编译，因此提供了预构建版本，以便用户执行不必在每次驱动程序安装期间对其进行编译。对于 nvidia.ko 内核模块，此组件名为“nv-kernel.o_binary”。对于 nvidia-modeset.ko 内核模块，此组件名为 “nv-modeset-kernel.o_binary”。nvidia-drm.ko 和 nvidia-uvm.ko 都不是具有与操作系统无关的组件。

必须构建每个内核模块的内核接口层组件对于目标内核。

目录结构布局

kernel-open/内核接口层
kernel-open/nvidia/nvidia.ko 的内核接口层
kernel-open/nvidia-drm/nvidia-drm.ko 的内核接口层
kernel-open/nvidia-modeset/nvidia-modeset.ko 的内核接口层
kernel-open/nvidia-uvm/nvidia-uvm.ko 的内核接口层
src/与操作系统无关的代码
src/nvidia/nvidia.ko 的与操作系统无关的代码
src/nvidia-modeset/nvidia-modeset.ko 的与操作系统无关的代码
src/common/nvidia.ko 和 nvidia-modeset.ko 中的一个或多个使用的实用程序代码
nouveau/用于与 Nouveau 设备驱动程序集成的工具

Nouveau 设备驱动程序集成

“nouveau”目录中的 Python 脚本用于提取一些在源代码中编码的固件二进制映像（和相关数据）和将它们存储为不同的文件。这些文件由 Nouveau 设备使用驱动程序加载并与 GSP 固件通信。

二进制文件的布局如nouveau_firmware_layout.ods中描述，这是一个 OpenDocument 电子表格文件，与大多数电子表格兼容软件应用程序。

兼容的 GPU

NVIDIA 开放内核模块可用于任何图灵或更高版本的 GPU （具体见Github链接）。但是，在 DRIVER_VERION 版本中，GeForce 和工作站支持被认为是 Beta 质量的。开放的内核模块适合广泛使用，NVIDIA 会就任何问题请求反馈遇到特定于他们。

有关功能支持和限制的详细信息，请参阅 NVIDIA GPU 驱动程序最终用户自述文件：

https://us.download.nvidia.com/XFree86/Linux-x86_64/550.100/README/kernel_open.html

有关 vGPU 支持，请参阅 vGPU 主机中打包的 README.vgpu 打包了解更多详情。

在下表中，如果列出了三个 ID，则第一个是 PCI 设备 ID，第二个是 PCI 子系统供应商 ID，第三个是 PCI 子系统设备 ID。

Forums