pycuda

🕗 发布于 2024-07-27 03:17 人工智能

一、定义

1.定义
2. 案例
3. pycuda 调用c++，并在内核中执行
4. 接口

二、实现

定义
PyCUDA 是一个基于 NVIDIA CUDA 的 Python 库，用于在 GPU 上进行高性能计算。它提供了与 CUDA C 类似的接口，可以方便地利用 GPU 的并行计算能力进行科学计算、机器学习、深度学习等领域的计算任务。
官网教程：https://documen.tician.de/pycuda/
中文教程：https://www.osgeo.cn/pycuda/driver.html#pycuda.driver.register_host_memory

pip install pycuda -i https://mirror.baidu.com/pypi/simple

案例

import pycuda.driver as cuda
import pycuda.autoinit
from pycuda.compiler import SourceModule

import numpy
a = numpy.random.randn(4,4)
a = a.astype(numpy.float32)

a_gpu = cuda.mem_alloc(a.nbytes)     #cuda 申请线性内存

cuda.memcpy_htod(a_gpu, a)          #将a 拷贝到cuda 中

a_doubled = numpy.empty_like(a)
cuda.memcpy_dtoh(a_doubled, a_gpu)      #从cuda 中拷贝出a_gpu

print (a_doubled)

print (a)

3.pycuda 调用c++，并在内核中执行

import pycuda.autoinit
from pycuda.compiler import SourceModule
kernel_code = r"""
__global__ void hello_from_gpu(void)
{
    printf("Hello World from the GPU!\n");
}
"""
mod = SourceModule(kernel_code)
hello_from_gpu = mod.get_function("hello_from_gpu")
hello_from_gpu(block=(1,1,1))

在这里插入图片描述

import pycuda.driver as cuda
import pycuda.autoinit
from pycuda.compiler import SourceModule

import numpy
a = numpy.random.randn(4,4)
a = a.astype(numpy.float32)

a_gpu = cuda.mem_alloc(a.nbytes)

cuda.memcpy_htod(a_gpu, a)


mod = SourceModule("""
  __global__ void doublify(float *a)
  {
    int idx = threadIdx.x + threadIdx.y*4;
    a[idx] *= 2;
  }
  """)


func = mod.get_function("doublify")
func(a_gpu, block=(4,4,1))

a_doubled = numpy.empty_like(a)
cuda.memcpy_dtoh(a_doubled, a_gpu)
print(a_doubled)
print(a)

在这里插入图片描述
4.接口

import numpy as np
import pycuda.gpuarray as gpuarray
import pycuda.driver as cuda
import pycuda.autoinit
from pycuda.compiler import SourceModule

a = gpuarray.to_gpu(np.random.rand(1,10).astype(np.float32))
b = gpuarray.to_gpu(np.random.rand(1,10).astype(np.float32))
c = gpuarray.maximum(a,b)
print(a,b,c)
gpu_ary = gpuarray.zeros((m,n),dtype=np.float32)    # 开辟gpu内存空间，创建0矩阵
gpu_ary = gpuarray.empty((m,n),dtype=np.float32)    # 开辟gpu内存空间，创建空矩阵
gpu_ary = gpuarray.zeros_like(ary)  # 开辟gpu内存空间，创建一个类似于ary的0矩阵，因此ary最好
                                    # 也是np.float32类型
gpu_ary = gpuarray.empty_like(ary)  # 开辟gpu内存空间，创建一个类似于ary的空矩阵，因此ary最好     
                                    # 也是np.float32类型
gpu_ary = gpuarray.arange(start,stop,step,dtype=None) #创建顺序序列，类型最好指定为np.float32
gpu_ary = gpuarray.take(a,ind)  # 返回gpuArray[a[ind[0]],..., a[ind[n]]]

在这里插入图片描述

原文地址：https://blog.csdn.net/weixin_40777649/article/details/140695388

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：数据结构1
下一篇：HashMap存储数据的put()方法

代码随想录算法训练营第十六天|513. 找树左下角的值 112. 路径总和 106. 从中序与后序遍历序列构造二叉树
二叉树day4，涉及到一点点最简单的回溯
阅读更多2024-10-18
【学习】word保存图片
直接右键另存为的话，文件总是不清晰，截屏的话，好像也欠妥。可以另存为网页 .html。word中有想保存的照片。原图就放到了文件夹里面。
阅读更多2024-10-18
群晖前面加了雷池社区版，安装失败，然后无法识别出用户真实访问IP
有nas的相信对公网都不模式，在现在基础上传带宽能有100兆的时代，有公网代表着家里有一个小服务器，像百度网盘，优酷这种在线服务都能部署为私有化服务。但现在运营商几乎不可能提供公网ip，要么自己买个云
阅读更多2024-10-18
探索光耦：光耦——不间断电源（UPS）系统中的安全高效卫士
综上，光耦在不间断电源（UPS）系统中的应用，不仅提升了系统的安全性和可靠性，还为电源管理和信号传输提供了坚实保障。光耦通过光信号传输控制信号，确保信号在高频切换中保持稳定与准确，如电源切换时，光耦能
阅读更多2024-10-18
JavaFX学习系列--第一章: 简单Fx界面
版本为jdk8 （因为jdk8已经内置JavaFX库，高版本JDK中被剥离，需要额外下载jar 包），https://oc.gdufs.edu.cn 教学资源站点可下载JDK8（如果使用下面所述的i
阅读更多2024-10-18
力扣简单 876.快慢指针
while(fast!= null){
阅读更多2024-10-18
React 项目热更新失效问题的解决方案和产生的原因
通过以上的依赖升级、编码注意事项和预防措施，我们成功修复了 React 项目热更新失效的问题，并且为后续开发规避了类似的问提。在修复React项目热更新失效的问题时，经过一系列问题排查和依赖升级，最终
阅读更多2024-10-18
list转map常用方法
account -> account是一个返回本身的lambda表达式，其实还可以使用Function接口中的一个默认方法 Function.identity()，这个方法返回自身对象，更加简洁
阅读更多2024-10-18
Java 中简化操作集合的方法
通过本文的介绍，我们了解了如何在 Java 中简化集合操作，特别是在 Java 8 之后，StreamAPI 提供了一种更具表现力和简洁性的编程方式。与传统的显式循环和条件判断相比，使用流操作可以让代
阅读更多2024-10-18
vue3基础入门以及常用api使用
多个页面需要同一个功能就可以使用hooks,而且hooks里边能使用钩子例如onMounted等，还能用computeduseSum.ts。
阅读更多2024-10-18

pycuda

一、定义

二、实现

相关文章