CUDA 全局内存

🕗 发布于 2024-10-17 01:52 cuda c

全局内存在片外。

特点是：容量最大、延迟最大、使用最多

全局内存中的数据是所有线程可见的，Host端可见，且具有与程序相同的生命周期

动态全局内存

主机代码使用CUDA运行时API ： cudaMalloc 声明内存空间； cudaFree 释放全局内存

静态全局内存

使用__device__关键字声明静态全局内存，编译器在编译时就确定了数据。必须在主机函数和核函数的外部声明。核函数可以直接使用静态全局内存。

主机代码如果需要使用静态全局内存需要：

cudaMemcpyToSymbol : 将主机变量传递给静态全局变量

cudaMemcpyFromSymbol ：将静态全局变量传递给主机变量

#include <cuda_runtime.h>
#include "cuda_runtime_api.h"
#include <iostream>
#include <device_launch_parameters.h>
static void CheckCudaErrorAux(const char*, unsigned, const char*, cudaError_t);
#define CUDA_CHECK_RETURN(value) CheckCudaErrorAux(__FILE__,__LINE__, #value, value)

__device__ int offsetx = 1;
__device__ int d_iVal[2];

__global__ void kernel()
{
d_iVal[0] += offsetx;
d_iVal[1] -= offsetx;

printf("offsetx = %d, d_iVal = (%d, %d)\n", offsetx, d_iVal[0], d_iVal[1]);
}

int main()
{
int h_iV[2] = { 10,20 };
printf("h_iV = (%d, %d)\n", h_iV[0], h_iV[1]);

CUDA_CHECK_RETURN(cudaMemcpyToSymbol(d_iVal, h_iV, sizeof(int) * 2));
dim3 grid(1);
dim3 block(1);

kernel <<<grid, block >>> ();

CUDA_CHECK_RETURN(cudaDeviceSynchronize());
CUDA_CHECK_RETURN(cudaMemcpyFromSymbol(h_iV, d_iVal, sizeof(int) * 2));
printf("h_iV = (%d, %d)\n", h_iV[0], h_iV[1]);

CUDA_CHECK_RETURN(cudaDeviceReset());

return 0;
}

static void CheckCudaErrorAux(const char* file, unsigned line, const char* statement, cudaError_t err)
{
if (err == cudaSuccess)
return;
std::cerr << statement << " returned: " << cudaGetErrorName(err) << "  \t : " << cudaGetErrorString(err) << "(" << err << ") at " << file << ":" << line << std::endl;
exit(1);
}

下面摘抄cuda官方指导手册里，关于cudaDeviceReset和内存释放的一些描述：

关于cudaDeviceReset()的函数声明
host_ cudaError_t cudaDeviceReset ( void )
Destroy all allocations and reset all state on the current device in the current process.

关于cudaDeviceReset()被调用时的具体操作
When a host thread calls cudaDeviceReset(), this destroys the primary context of the device the host thread currently operates on (i.e., the current device as defined in Device Selection). The next runtime function call made by any host thread that has this device as current will create a new primary context for this device.

关于调用cudaDeviceReset()来释放内存
The memcheck tool can detect leaks of allocated memory.

Memory leaks are device side allocations that have not been freed by the time the context is destroyed. The memcheck tool tracks device memory allocations created using the CUDA driver or runtime APIs. Starting in CUDA 5, allocations that are created dynamically on the device heap by calling malloc() inside a kernel are also tracked.

For an accurate leak checking summary to be generated, the application’s CUDA context must be destroyed at the end. This can be done explicitly by calling cuCtxDestroy() in applications using the CUDA driver API, or by calling cudaDeviceReset() in applications programmed against the CUDA run time API.

The --leak-check full option must be specified to enable leak checking.

官方意思应该是，的确需要通过cuCtxDestroy或cudaDeviceReset对cuda申请的资源（CUDA contex）进行释放。
但是通过本篇出现的错误总结：在不熟悉cuda的情况下，释放cuda资源时、尤其是进行reset操作时，要注意释放时机；例如，可以在整个进程结束的时候，对cuda进行reset，毕竟GPU和CPU执行程序是异步的，且根据目前了解发现，不少cuda函数或工具，对gpu操作时、是直接对整块GPU操作、而不是其中的某“线程”。

cudaDeviceReset 是将cudaSetDevice所设置的当前关联的gpu设备，重置，即当前关联的gpu设备之前申请的资源都会被清空。

参考：

关于错误使用cudaDeviceReset（）函数，导致多线程下cuda错误、进程崩溃的问题-CSDN博客 cudaDeviceReset-CSDN博客

原文地址：https://blog.csdn.net/Jane_yuhui/article/details/142978650

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：VLAN资源池
下一篇：24/10/12 算法笔记 NiN

南京邮电大学电工电子A实验十一（数据选择器及逻辑电路的动态测试）
南京邮电大学电工电子A实验十一（数据选择器及逻辑电路的动态测试）；南京邮电大学；电工电子；实验报告
阅读更多2024-10-17
mp4转avi怎么转换？6个好用的mp4转换器测评汇总，赶快学起来！
mp4文件是一种多媒体容器格式，可以存储视频、音频和字幕等数据。由于像 iTunes 这样的商店广泛使用这一格式，并且其与iPod和PlayStation Portable（PSP）设备兼容，mp4文
阅读更多2024-10-17
【北京迅为】itop-3562开发板机器视觉opencv开发手册使用OpenCV处理图像
【北京迅为】itop-3562机器视觉opencv开发手册使用OpenCV处理图像
阅读更多2024-10-17
鸿蒙开发案例：HarmonyOS NEXT语法实现2048
• 方块移动动画：暂未实现原理应该是在UI的Text上设置.translate({ x:, y: })并添加.animation({duration: 200})，然后在逻辑里通过修改x或y来实现位
阅读更多2024-10-17
【openGL学习笔记】----GLFW、GLAD环境配置
GLFW已经提供为Visual Studio（2012到2022都有）预编译好的二进制版本和相应的头文件。通常来说glad和glfw配合使用来提供更高效的渲染和更好的跨平台支持‌。定义OpenGL的版
阅读更多2024-10-17
PyQt 入门教程（3）基础知识 | 3.2、加载资源文件
常见的资源文件有图像与图标，下面分别介绍下加载资源文件的常用方法。PyQt6版本暂时没有提供。工具的时，如何使用资源文件。运行效果，窗口图标发生变化。工具，下面介绍下在不使用。
阅读更多2024-10-17
推广——模板题新世界
欢迎大家加入，数据均配置完成了。
阅读更多2024-10-17
kubernetes自定义pod启动用户
image: ...
阅读更多2024-10-17
特征值计算（大数据作业）
参数可以自己设置，A是一个实对称矩阵，max_iter是最大的迭代次数，tolerance 是用于设置迭代停止的条件之一，是精度要求。u 是随机设置的一个向量，通过迭代不断地更新。
阅读更多2024-10-17
JS异步编程进阶（一）：Callback、Promise、Async/Await 和 Observable 深度对比
Callback ,Promise,Async/Await 是场景的异步流程实现方式，简单的场景下够用，但如果业务过于复杂，你可能需要一种新的模式来简化复杂的流程了。例如需要后台持续执行、非一次性完成
阅读更多2024-10-17

CUDA 全局内存

动态全局内存

静态全局内存

相关文章