Uniad复现学习:二(未完待续)
在优云智算compshare平台部署训练,加速训练。
优云智算compshare
有学术加速,huggingface,github加速、4090资源非常充足、丰富的行业镜像
链接:https://www.compshare.cn/?ytag=GPU_daxiblog_Lcsdn_csdn
注册即可获得20元算力金,免费体验10小时4090
配置了几次环境都没有配置好,总结一下错误原因和思路:
1:是没有按照作者CUDA 版本安装,按照自己的来,导致Pytorch版本也不一样,导致最后安装
2:全部按照作者的版本配置,版本没出错,但是有其他的小错误,比如运行程序时报错说找不到cuda。安装CUDA时中断说查看日志,其实是GCC版本太高,装了低版本的系统识别不到。
3:删除GCC高版本时候用了Automove ,结果所有的依赖和CUDA都删了。
以下是当时记录:可能有点乱,后续跑出来有时间会整理。
另外至今没搞懂优云智算的数据盘是链接在自己电脑的什么地方,数据很大在本地上传也费劲。
于是网上搜rsync命令,RSYNC
类似于cp命令,可以在本地和本地、本地和服务器 之间快速复制数据,很好用。
选择删除cuda重新装 结果sh的时候 gcc 又有问题
原来是ubuntu20.04适配的最低gcc是(可用命令查看)。。
又执行 conda install -c omgarcia gcc-6 # gcc-6.2 说是conda安装的不用加环境变量
gcc是c++的库 不能用pip安装
然后还是一直不对 显示gcc有错 输出 gcc --version 显示6版本 ,装cuda报错 它找到usr\bin\gcc下的gcc是11版本
然后把gcc 11 12 9全删了 再次安装,显示没有GCC了。。。。 那我GCC --version 的6从哪出来了,环境变量也配置了就是装cuda报错找11的
然后准备手动编译 6版本太老了从github上下载 wget http://ftp.gnu.org/gnu/gcc/gcc-6.1.0/gcc-6.1.0.tar.gz
解压 tar -xvf gcc-6.1.0.tar.gz
编译
cd gcc-6.1.0
./configure --enable-languages=c,c++
make -j$(nproc)
sudo make install
报错 安装依赖
sudo apt-get update
sudo apt-get install build-essential libgmp-dev libmpfr-dev libmpc-dev
还是报错
cking for suffix of object files... configure: error: in `/home/ubuntu/gcc-6.1.0/x86_64-pc-linux-gnu/
libgcc':
configure: error: cannot compute suffix of object files: cannot compile
See `config.log' for more details.
make[2]: *** [Makefile:17099: configure-stage1-target-libgcc] Error 1
make[2]: Leaving directory '/home/ubuntu/gcc-6.1.0'
make[1]: *** [Makefile:21251: stage1-bubble] Error 2
make[1]: Leaving directory '/home/ubuntu/gcc-6.1.0'
make: *** [Makefile:914: all] Error 2.
网上百度 说是又要安装编译一大堆东西 放弃
Kim真是垃圾,问了gpt
首先列出系统中所有可用的 GCC 版本路径:ls /usr/bin/gcc*
然后安装
sudo apt update
sudo apt install gcc-9 g++-9
然后
sudo update-alternatives --install /usr/bin/gcc gcc /usr/bin/gcc-9 100
sudo update-alternatives --install /usr/bin/g++ g++ /usr/bin/g++-9 100
然后 gcc --version
然后错误
= Summary =
===========
Driver: Not Selected
Toolkit: Installed in /usr/local/cuda-11.1/
Samples: Installed in /home/ubuntu/, but missing recommended libraries
Please make sure that
- PATH includes /usr/local/cuda-11.1/bin
- LD_LIBRARY_PATH includes /usr/local/cuda-11.1/lib64, or, add /usr/local/cuda-11.1/lib64 to /etc/ld.
so.conf and run ldconfig as root
To uninstall the CUDA Toolkit, run cuda-uninstaller in /usr/local/cuda-11.1/bin
***WARNING: Incomplete installation! This installation did not install the CUDA Driver. A driver of vers
ion at least 455.00 is required for CUDA 11.1 functionality to work.
To install the driver using this installer, run the following command, replacing <CudaInstaller> with th
e name of this run file:
sudo <CudaInstaller>.run --silent --driver
Logfile is /var/log/cuda-installer.log
显示显卡驱动没了,估计是autoremove删了。。。
系统会自带cuda文件夹在 usr/local/
检查是否安装成功 检查一下CUDA是否安装正确:(注意文件夹路径一定要存在,需要跟上面设置环境变量的路径保持一致)
cat /usr/local/cuda-12.1/version.txt
原文地址:https://blog.csdn.net/qq_51013517/article/details/144278343
免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!