ubuntu下实时查看CPU，内存（Mem）和GPU的利用率

🕗 发布于 2024-10-10 11:14 ubuntu linux 运维

一、实时查看CPU和内存（Mem）利用率

htop官网：htop - an interactive process viewer

sudo apt-get install htop
htop

①. 顶部状态栏（System Metrics Overview）

这个区域显示系统的全局资源使用情况，包括：

CPU 使用率： 顶部会显示多条表示 CPU 使用情况的条形图，每条代表一个 CPU 核心。不同颜色表示不同类型的 CPU 负载：
- 绿色：用户进程使用的 CPU（user）
- 红色：内核进程使用的 CPU（system）
- 蓝色：低优先级进程使用的 CPU（nice）
- 黄色：I/O 等待（iowait）
- 灰色：虚拟 CPU 使用（steal time）
内存（Mem）： 显示当前的物理内存使用情况，条形图及具体的数值会告诉你内存的已使用、缓存和可用内存数量。
交换区（Swap）： 显示系统交换区的使用情况（如果物理内存不足时，系统会将部分数据放入交换区）。条形图和数值显示交换空间的已用和剩余量。

②. 任务和负载信息（Load Average and Uptime）

这个区域紧接着 CPU、内存和交换区的显示之后，主要展示以下内容：

任务（Tasks）： 显示系统上正在运行的任务（进程）数量和状态信息，包括正在运行、睡眠、停止等进程数目。
负载平均值（Load Average）： 显示系统的负载平均值，分别为最近1分钟、5分钟和15分钟的平均负载。
系统运行时间（Uptime）： 显示系统已运行的总时间。

③. 进程列表（Processes List）

这是 htop 窗口中最核心的部分，显示系统中所有运行中的进程，每一行代表一个进程。每个进程行通常包含以下信息：

PID： 进程的唯一标识符（进程 ID）。
User： 运行该进程的用户。
Priority（PRI）： 进程的优先级，数值越小，优先级越高。
Nice（NI）： 进程的 nice 值，调整进程的调度优先级。
VIRT： 进程虚拟内存的总量。
RES： 进程实际使用的物理内存量。
SHR： 进程共享内存的大小。
S：进程的状态，常见的状态有：
- R：Running，进程正在运行。
- S：Sleeping，进程在休眠状态。
- D：Uninterruptible sleep，无法中断的睡眠状态（通常是 I/O 操作）。
- Z：Zombie，僵尸进程，已终止但未清理。
- T：Stopped，进程已停止。
%CPU： 进程当前占用的 CPU 百分比。
%MEM： 进程当前占用的物理内存百分比。
TIME+： 进程消耗的 CPU 总时间（格式为时:分:秒）。
Command： 进程执行的命令名称或路径。

④. 底部功能键（Interactive Commands）

htop 提供了许多快捷键，底部通常会显示一些常用的快捷键提示：

F1（Help）： 显示帮助菜单，解释所有可用的键盘快捷键。
F2（Setup）： 进入设置界面，可以调整显示颜色、排序方式等。
F3（Search）： 搜索进程，可以按名称、PID 等。
F4（Filter）： 过滤进程，显示符合过滤条件的进程。
F5（Tree）： 以树形结构显示进程，展示进程之间的父子关系。
F6（Sort by）： 选择排序方式（区域③中会以蓝色显示），比如按 CPU、内存使用量等排序。
F7（Nice-）： 降低进程的优先级（增加 nice 值）。
F8（Nice+）： 提高进程的优先级（减少 nice 值）。
F9（Kill）： 终止选中的进程。
F10（Quit）： 退出 htop。

二、实时查看GPU的利用率

使用 nvidia-smi 命令查看 GPU 利用率，但是这个命令只能显示一帧，如果要实时显示，需要配合watch命令, 一秒钟刷新一次 nvidia-smi 命令

watch -n 1 nvidia-smi

watch：这是一个 Linux 命令，用于周期性地执行指定的命令，并将其输出显示在终端上。默认情况下，它会每两秒刷新一次输出。
-n 1：这是 watch 命令的一个选项，表示设置刷新间隔为1秒。换句话说，watch 每隔1秒钟重新运行一次指定的命令，并更新显示的结果。
nvidia-smi：这是 NVIDIA 提供的一个命令，用于显示 GPU 的实时信息，包括显卡的温度、功耗、显存使用率、GPU 负载等。它常用于监控 NVIDIA GPU 的运行状态。

①. 顶部信息部分（General System Information）

在输出的顶部，展示系统和驱动程序的全局信息，包括：

NVIDIA-SMI Version：nvidia-smi 工具的版本号。
Driver Version：当前安装的 NVIDIA 驱动程序版本。确保驱动程序版本与 CUDA 工具包兼容是非常重要的。
CUDA Version：显示当前支持的 CUDA 版本，这是 NVIDIA 的并行计算平台和 API，用于加速深度学习等任务。

②. GPU 信息表（GPU Information Table）

在这一部分，列出了每个已安装的 GPU 及其状态。表格的每一行代表一张 GPU，包含以下字段：

GPU：每个 GPU 在系统中的编号，通常从 0 开始，表示 GPU 在系统中的索引号。

Name：显卡的型号名称，例如 Tesla V100、RTX 3090 等，表示具体的显卡型号。

Persistence-M (持久性模式)

On：GPU 即使没有任务时也保持初始化状态，减少任务启动延迟。
Off：GPU 在没有任务时进入未初始化状态，节省功耗。

Bus-Id：GPU 连接到主板的 PCI 总线 ID，格式为 Domain:Bus:Device.Function，如 00000000:00:1C.0。这个字段在多 GPU 系统中很有用。

Disp.A (Display Active)：显示该 GPU 是否用于驱动显示器：

On：GPU 正用于驱动显示器。
Off：GPU 未连接到显示器，通常在服务器或计算节点上为 Off。

Volatile Uncorr. ECC (Volatile Uncorrectable ECC Errors)：GPU 的内存中不可修正的 ECC 错误计数：

0：没有检测到不可修正的 ECC 错误，这是理想状态。
>0：有不可修正的 ECC 错误，可能导致数据计算错误。ECC 是 Error-Correcting Code，用于保证 GPU 计算的准确性。
N/A：该 GPU 不支持 ECC（Error-Correcting Code）功能

Fan (风扇速度)：当前 GPU 风扇的运行速度，单位为百分比（%）。这个值会根据 GPU 温度和负载动态调整，N/A 表示没有独立风扇或者风扇信息不可用。

Temp (温度)：GPU 当前温度，单位为摄氏度（°C）。理想温度通常在 30°C 到 85°C 之间，过高温度可能导致性能下降或硬件损坏。

Perf (性能状态)：GPU 的性能状态（P-State），范围从 P0 到 P12：

P0：最高性能状态，表示 GPU 正在满负荷运转。
P12：最低性能状态，表示 GPU 几乎处于闲置状态。

Pwr: Usage/Cap（功耗 / 最大功耗）

Usage：GPU 当前的功耗，单位为瓦特（W）。
Cap：该 GPU 允许的最大功耗。实际功耗在任务执行过程中会动态变化，最大功耗由硬件或 BIOS 设定。

Memory-Usage（显存使用情况）

Used：当前 GPU 正在使用的显存量。
Total：GPU 的总显存量。
显存使用率反映了计算任务对显存的需求，高密集型任务（如深度学习模型训练）会占用大量显存。

GPU-Util（GPU 利用率 %）：GPU 的当前利用率，以百分比显示。这个值越高，表示 GPU 的负载越重：

0-10%：空闲或负载极低。
100%：GPU 处于满负荷运转状态。

Compute M. (计算模式)：定义了 GPU 如何与多个应用程序共享计算资源

Default：默认计算模式，多个进程可以同时访问 GPU 的计算资源。这是大多数应用场景的默认模式，允许多个任务共享 GPU。
Exclusive Process：在这个模式下，只有一个进程能够使用 GPU 的计算资源，但该进程可以有多个线程。这种模式通常用于防止不同进程之间的竞争，提高性能的一致性。
Exclusive Thread：更严格的模式，只有一个线程能够访问 GPU。这种模式不常用。
Prohibited：禁止使用 GPU 的计算资源。在这个模式下，GPU 不能执行任何计算任务。这种模式下，GPU 只能用于显示输出。

MIG M.(多实例 GPU 模式)：NVIDIA A100 和其他 Ampere 架构 GPU 引入的一项新功能

Enabled：表示 MIG 模式已启用。在启用 MIG 的情况下，一张 GPU 可以分割为多个逻辑 GPU，每个逻辑 GPU 分配固定的计算和显存资源。这允许多个用户或应用程序独立使用 GPU，避免资源竞争。
Disabled：表示 MIG 模式未启用。GPU 以传统方式运作，作为单一计算单元使用。
N/A：该 GPU 不支持 MIG 模式。例如，只有支持 MIG 的 NVIDIA GPU（如 A100 或 H100）才会显示 MIG 相关的信息，而其他不支持的 GPU 显示 N/A。

③. 进程列表（Processes Section）

在 GPU 信息表的下方，显示当前使用 GPU 资源的进程信息。包括：

GPU ：显示每个 GPU 的编号，表示进程在哪个 GPU 上运行。

PID (进程 ID)：进程的唯一标识符，可以用来进一步排查系统中运行的进程或调试特定任务。

Type (进程类型)：进程的类型：

C（Compute）：表示计算任务，通常是深度学习或并行计算任务。
G（Graphics）：表示图形任务。
V（Video）：表示视频任务，例如视频编码或解码。

Process Name (进程名称)：显示正在运行的进程名称或路径，如 /usr/bin/python，用于识别具体的应用程序或任务。

GPU Memory Usage（显存使用量）：该进程使用的显存量，单位为 MiB（Mebibytes）。如果多个进程同时运行，显存可能被多个进程共享。

参考

Linux查看CPU状态：htop命令

原文地址：https://blog.csdn.net/m0_49384824/article/details/142786237

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：Windows下安装最新版MySQL
下一篇：Ubuntu20.04，编译安装BCC

LeCun数十年经验之谈：视觉是建立AGI的核心，视频理解难点在哪？语言模型技术为何难以复用于视觉？
我们做视频理解多年，对LeCun谈到的难点有深刻体会，也非常赞同视觉等高维信息对于AI理解世界是至关重要的，这也许就是通向AGI的道路。不过，2024年2月19日，”人工智能教父“ Geoffrey
阅读更多2024-10-12
【MySQL数据库】MySQL数据库初体验
定义：数据库是存放数据的仓库，它的存储空间很大，可以存放百万条、千万条、上亿条数据。数据库是一个按数据结构来存储和管理数据的计算机软件系统，是电子化的文件柜，能够合理保管数据的“仓库”，用户在该“仓库
阅读更多2024-10-12
【React前端框架-安装部署及常见问题】
CSS 样式无法生效：在 React 中，需要使用 className 属性来设置组件的样式类，而不是使用传统的 class 属性。它提供了一种声明式的编程模型，使开发者可以方便地构建可复用的组件，并
阅读更多2024-10-12
微信小程序-分包加载
小程序是由多个页面构成，为了因为代码量多，体积大导致用户打开速度变慢，小程序提供了分包加载数据。分包加载数据，只有在主包调用分包某一个页面时候才会调用加载分包。即就是按需加载。整个小程序不能超过20M
阅读更多2024-10-12
Flink 04 | 窗口介绍 - 无界数据流的核心
Flink中Windows（窗口）是处理无界数据流的核心。因为无界数据集是不断增长的，无法直接对整个数据集进行操作。窗口将数据流分成有限大小的Buckets，我们可以在这些Buckets上应用计算。本
阅读更多2024-10-12
Java编程电子书pdf合集(2024整理)
*Java编程电子书pdf合集
阅读更多2024-10-12
Docker Overlay2 空间优化
Docker Overlay2 空间优化。
阅读更多2024-10-12
三NFS和备份了解
定义：NFS（Network File System，网络文件系统）是一种分布式文件系统协议作用在生产环境中常被用作存储资源共享的手段。一台作为存储服务器的机器通过网络设备与其他应用类服务器建立连接，
阅读更多2024-10-12
借助 Aspose.Words控件，在 Word 中添加目录 (TOC)
在这篇文章中，我们将向您展示如何在 Word 文档中添加目录，欢迎查阅
阅读更多2024-10-12
PDF匹配文本精准标记红框算法
print("读取页码:", list_number[list_index[order] + skew])print("读取坐标:", list_box[lis
阅读更多2024-10-12