多显卡训练指定显卡（A800）

🕗 发布于 2024-11-14 14:52 深度学习 人工智能

模型：https://github.com/zhulf0804/PointPillars

通过指定显卡7进行训练： torch.cuda.set_device(7)

RuntimeError: Expected all tensors to be on the same device, but found at least two devices, cuda7 and cuda0

报错位置

        features = features.permute(0, 2, 1).contiguous() # (p1 + p2 + ... + pb, 9, num_points)把第二维度第三维度换一下[6169, 9, 32]
        print(features.device)"device 7"
        print(self.conv(features).device)
        features = F.relu(self.bn(self.conv(features)))

问题原因：输入x和对应权重不在同一块显卡上。w在显卡0上，x在显卡7上。

分析：经过排查带入的np数组已经加载在指定显卡上。看了一下报错的位置上self.conv卷积里面输入除了x还有权重，证明权重是并不是运行在device 7上的，于是产生报错。

torch.cuda.set_device(7) 这条指令只保证了输入的数据都运行在显卡7上，很显然此条命令并非对模型的初始权重设置产生作用，于是模型加载默认的device 0。

于是增加代码：

    if not args.no_cuda:
        pointpillars = PointPillars(nclasses=args.nclasses).cuda()
        torch.nn.DataParallel(pointpillars,device_ids=[7])#增加代码
    else:
        pointpillars = PointPillars(nclasses=args.nclasses)
    loss_func = Loss()

增加了对模型的初始设置，模型继承了nn.Module所以，一次设置，内部的所有权重都基于显卡7运行。

原文地址：https://blog.csdn.net/qq_35210952/article/details/143719760

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：labview中连接sql server数据库查询语句
下一篇：RPA 机器人流程自动化

C#调试项目_附加进程调试
c#项目附加进程一级目录二级目录三级目录一级目录二级目录三级目录
阅读更多2024-11-15
线程-2-线程概念与控制
线程概念与控制，局部性原理， POXIS接口，分页式存储结构，页表结构，缺页中断
阅读更多2024-11-15
洛谷 P4011 孤岛营救问题（BFS分层图最短路，状态压缩）
我们考虑对已获得的钥匙进行二进制状态压缩。注意：同一个格子可能有多把钥匙，一开始的。显然，我们直接使用BFS求最短路即可。这个格子，且当前已有钥匙的状态为。
阅读更多2024-11-15
聊天服务器(3)muduo网络库
muduo只能装在linux中，依赖boost库客户端并不需要高并发。
阅读更多2024-11-15
Unity学习---IL2CPP打包时可能遇到的问题
在这种情况下一般我们把Managed Stripping Level设置为High，然后看一下报错的提示，往link.wxl文件中添加要保留的东西即可。IL2CPP打包后会自动对Unity工程的dll
阅读更多2024-11-15
OpenGL C++视频中添加图片及文字水印播放并录制
根据前置储备，该功能的实现流程：创建一个GLThread的OpenGL运行环境；YUV数据绘制到OpenGL纹理中；图片纹理创建绘制到glViewport；文字渲染绘制到glViewport；录制视频
阅读更多2024-11-15
java实现中小企业的erp系统
java实现中小企业的erp系统
阅读更多2024-11-15
智能零售柜商品识别
本项目在智能零售商品识别的背景下，采用了多项技术创新和优化，旨在提高商品检测与识别的效率和准确性。首先，使用了PaddleX作为训练框架，这是一个高效、灵活的深度学习平台，简化了模型训练和部署的复杂性
阅读更多2024-11-15
H.265流媒体播放器EasyPlayer.js网页直播/点播播放器WebGL: CONTEXT_LOST_WEBGL错误引发的原因
EasyPlayer.js播放器不仅支持H.264与H.265视频编码格式，还具备直播、点播、录像、快照截图、MP4播放、多屏播放、倍数播放、全屏播放等功能特性，兼容Windows、Linux、And
阅读更多2024-11-15
ubuntu连接orangepi-zero-2w桌面的几种方法
线连接 Orange Pi 开发板和 HDMI 显示器。然后打开 Nomachine 图形化连接开发板。例如使用finalshell 连接开发板。其中视频采集卡是usb输出，hdmi输入。线 +
阅读更多2024-11-15

多显卡训练指定显卡（A800）

RuntimeError: Expected all tensors to be on the same device, but found at least two devices, cuda7 and cuda0

相关文章