Cuda By Example - 1

🕗 发布于 2024-10-09 22:27 c语言 cuda

导言

有兴趣看Cuda By Example这本书的，相信和我一样，都是cuda方面的小白。因此很有必要对Cuda有个粗略的了解。

作者写这边书的时间是2010年，当时cuda的版本是3.0。使用GPGPU做加速运算远不如今日这般火热，因此作者用了整整一章忽悠读者来学并行计算，使用cuda c。目前toolkit的版本已经更新到了12.6。书中的第二章是讲安装开发环境的，基本上过时了，直接去nvidia的网站上看最新的安装指南吧。有一点需要注意，toolkit 的例子放在github，项目文件有可能对应最新的toolkit版本。如果仅仅是为了学习，建议根据例子下载对应的toolkit的版本。

cuda toolkit 包含了NVIDIA的编译器nvcc，以及运行库。以windows系统为例，Visual C++提供了项目管理和编译主机端代码的责任，而用于GPU的代码，则是通过NVIDIA的编译器编译的。NVIDIA运行库负责跟驱动沟通，其职责包括但不限于将数据和代码指令送到GPU里去。

细节太复杂，我目前也就懂个皮毛，就不多说了，拿出我们刚开始学C语言时的勇气 - 谁一开始在乎程序内部是如何运行的，先弄清楚怎么写代码再说。

那么CUDA C 和标准的C有哪些不一样呢？

首先，CUDA C的代码文件是以cu作为扩展名的。为了区分那些在主机端运行的代码，在GPU上运行的代码都会加上 __globla__ 或者 __device__这样的修饰符。

其次，CUDA C提供了一组函数，用于操作GPU资源。

再次，GPU上运行的代码，是由主机代码调用。

例子分析

举个简单的例子，来源于书中示例。

__device__ int addem( int a, int b ) {
    return a + b;
}

__global__ void add( int a, int b, int *c ) {
    *c = addem( a, b );
}

int main( void ) {
    int c;
    int *dev_c;
    HANDLE_ERROR( cudaMalloc( (void**)&dev_c, sizeof(int) ) );

    add<<<1,1>>>( 2, 7, dev_c );

    HANDLE_ERROR( cudaMemcpy( &c, dev_c, sizeof(int),
                              cudaMemcpyDeviceToHost ) );
    printf( "2 + 7 = %d\n", c );
    HANDLE_ERROR( cudaFree( dev_c ) );

    return 0;
}

从__global__和__device__修饰符，可知 add 和 addem 将会运行在GPU，实现两个数值的求和。除了函数前的修饰符，跟标准的C函数没有任何差别。

程序运行在主机CPU，运算部分放在GPU。肯定有一个幕后黑手，将数据和运算代码搬到GPU里去。幕后黑手提供了cudaMalloc让我们GPU端分配内存。上面的例子分配了sizeof（int）大小的GPU内存给dev_c。调用add的方式：add<<<1,1>>>(2,7, dev_c)；跟普通函数调用有所不同，前面添加了<<< >>>。这种方式提示幕后黑手，在主机代码中加上一部分代码，将add指令和参数传输到GPU里，并让其执行。

cudaMemcpy的作用是在主机内存和GPU内存之间拷贝数据。显然跟普通memcpy不一样的，它或许需要经过PCIe接口，来传输数据。例子中，cudaMemcpy把dev_c里的内容传输给主机变量c。

cudaFree 用于释放掉GPU内存，它跟cudaMalloc成对使用，不能跟主机上分配和释放内存的malloc和free混用。

附言

cuda by exmaple的代码我已经从github下载下来，上传到csdn。方便访问不了github的同学使用。

cuda by example 例子

原文地址：https://blog.csdn.net/dairyman000/article/details/142785409

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：WPF 集合空间绑定，自定义布局
下一篇：位运算 -- 力扣

保姆级教程 | Linux中grep命令使用 & 分子动力学轨迹文件输出特定原子电荷值
（如果lammps输出的data文件轨迹部分的原子序号没有按从小到大的排列的情况：）grep是linux中的提取linux命令查询某个条件的前10行"A+1 B" 的格式是熟知re
阅读更多2024-10-11
在Linux中编译工具有哪些
gcc * ：git：openssh：make：一个自动化构建工具，用于根据指定的规则编译和链接项目。cmake：跨平台的构建工具，生成适用于不同平台的构建文件。gmake：是一个用于自动构
阅读更多2024-10-11
Spring 如何加载多份配置文件
Spring 如何加载多份配置文件
阅读更多2024-10-11
Nginx 配置之server块
在 Nginx 配置中使用两个server块是为了处理 HTTP 和 HTTPS 请求的不同需求。
阅读更多2024-10-11
SpringMVC源码-@ControllerAdvice和 @InitBinder注解源码讲解
@ControllerAdvice注解修饰的类下面方法注解InitBinder和ModelAttribute修饰的方法被扫描执行加载到springmvc的教程
阅读更多2024-10-11
遨游智能终端赋能“危急特”场景，力推北斗技术规模化应用！
遨游通讯紧跟国家战略步伐，凭借其在北斗智能终端领域的深厚积累，打牢“北斗+”技术融合创新的基础，力推北斗智能终端在“危、急、特”场景的规模化应用。
阅读更多2024-10-11
Java的UDP通信
Java中的UDP通信构造方法相关方法发送数据的步骤，我们也可以把发送数据的步骤理解为给自己心爱的女神发送快递的全过程代码演示。
阅读更多2024-10-11
FTP与SFTP的区别
综上所述，SFTP 相对于 FTP 更加安全，因为它使用加密传输数据，适合传输敏感数据。如果您有选择的话，建议使用 SFTP 来进行文件传输以确保数据的安全性。
阅读更多2024-10-11
单例模式（C++）
原理：当多个线程尝试初始化同一个静态局部变量时，C++11标准保证只有一个线程能够成功执行初始化代码，而其他线程则会被阻塞，直到初始化完成。饿汉模式之所以线程安全是因为在main函数执行之前，全局作用
阅读更多2024-10-11
【路径规划】自主机器人的路径规划和导航
本文讨论了如何利用路径规划算法对自主机器人进行路径规划和导航。自主机器人在环境中的路径规划是通过参考路径与机器人的当前位置进行比对，采用纯追踪算法（Pure Pursuit）进行路径跟踪，以确保机器人
阅读更多2024-10-11

Cuda By Example - 1

导言

那么CUDA C 和标准的C有哪些不一样呢？

例子分析

附言

相关文章