Pytorch 环境配置日记
该死的环境配置
Pytorch 环境配置日记
最近弄到实验室的两块 A5000 环境,想着把环境配好做实验,结果配置过程中发现怎么这么多坑(晕了!!)
正常配置 CPU 的版本是非常简单的,通过清华源快速又稳定
然而我是没想到 GPU 版本配置,真是废了我半条命
遇到的问题
服务器是共用的,每个人有自己的环境,所以我刚上的时候,发现 cudatoolkit 是配置好的,而且是 11.7 版本
于是我直接修改代码,开始跑实验,在我 torch.cuda 一切正常的情况下,告诉我缺少 lib 文件。于是我便寻找这个 lib 文件,确实找到了并添加环境变量,结果没用,依然报错!
于是我想着那我自己重新配一个 cudatoolkit 环境,且我在 conda 过程中看到了那个 lib 。我开始重新配置,因为我上来就使用的是清华源,所以官网的 conda 命令无法使用,我想着应该无所谓,总有替换的命令
结果清华源一直报错,访问不了。这直接给我头整大了,我想着国内源也能访问不了,于是一通改配置文件,还是不行甚至卡。很久以后我把 我把 https -> http 就正常了。。。
我想着这下 OK 了,下载过程中也确实 OK 了,结果我发现清华源的 cudatoolkit 版本没有 11.7,导致我 torch.cuda.is_avaiable() 一直 false,到底是不是版本问题待确定。于是我在 cuda 官网下了一个源文件,结果本地没有 sudo 权限,一时半会还给不了
最后我还是把 condarc 修改成原始配置,删除掉了清华源,看看最后结果如何
过了一晚,果然断了!外网是这样的,于是我想着就下老版本就可以吧,清华源不知道为什么没有跟进新版本,整个 torch 套装都落后好几个版本。老版本下载还算顺利
结果提醒一直没有 CUDNN 环境,于是我立马想到是不是和系统带的冲突了,因为我 CUDNN 下载的适配 CUDA11.3 而不是 CUDA11.7。于是我开始更换整个套装 torch、torchvision、CUDA、cuDNN ,直接从网站上下载然后 SCP 进去。结果这次提醒我,CUDNN 申请不到资源,我真是傻了。于是我找了同门,让他在那边实验,结果他环境也有问题,后来弄好了和我说他也申请不到。
原来是同门在上面跑巨大模型,又过了一天,终于成功跑起了我的代码,真是坎坷
总结
- 国内源不是无脑上的,需要具体问题解决,上网问题真是难呀
Pytorch 环境配置日记