Pytorch 环境配置日记

该死的环境配置

Pytorch 环境配置日记

最近弄到实验室的两块 A5000 环境,想着把环境配好做实验,结果配置过程中发现怎么这么多坑(晕了!!)

  • 正常配置 CPU 的版本是非常简单的,通过清华源快速又稳定

  • 然而我是没想到 GPU 版本配置,真是废了我半条命

遇到的问题

  1. 服务器是共用的,每个人有自己的环境,所以我刚上的时候,发现 cudatoolkit 是配置好的,而且是 11.7 版本

  2. 于是我直接修改代码,开始跑实验,在我 torch.cuda 一切正常的情况下,告诉我缺少 lib 文件。于是我便寻找这个 lib 文件,确实找到了并添加环境变量,结果没用,依然报错!

  3. 于是我想着那我自己重新配一个 cudatoolkit 环境,且我在 conda 过程中看到了那个 lib 。我开始重新配置,因为我上来就使用的是清华源,所以官网的 conda 命令无法使用,我想着应该无所谓,总有替换的命令

  4. 结果清华源一直报错,访问不了。这直接给我头整大了,我想着国内源也能访问不了,于是一通改配置文件,还是不行甚至卡。很久以后我把 我把 https -> http 就正常了。。。

  5. 我想着这下 OK 了,下载过程中也确实 OK 了,结果我发现清华源的 cudatoolkit 版本没有 11.7,导致我 torch.cuda.is_avaiable() 一直 false,到底是不是版本问题待确定。于是我在 cuda 官网下了一个源文件,结果本地没有 sudo 权限,一时半会还给不了

  6. 最后我还是把 condarc 修改成原始配置,删除掉了清华源,看看最后结果如何

  7. 过了一晚,果然断了!外网是这样的,于是我想着就下老版本就可以吧,清华源不知道为什么没有跟进新版本,整个 torch 套装都落后好几个版本。老版本下载还算顺利

  8. 结果提醒一直没有 CUDNN 环境,于是我立马想到是不是和系统带的冲突了,因为我 CUDNN 下载的适配 CUDA11.3 而不是 CUDA11.7。于是我开始更换整个套装 torch、torchvision、CUDA、cuDNN ,直接从网站上下载然后 SCP 进去。结果这次提醒我,CUDNN 申请不到资源,我真是傻了。于是我找了同门,让他在那边实验,结果他环境也有问题,后来弄好了和我说他也申请不到。

  9. 原来是同门在上面跑巨大模型,又过了一天,终于成功跑起了我的代码,真是坎坷

总结

  • 国内源不是无脑上的,需要具体问题解决,上网问题真是难呀
作者

Lookup

发布于

2022-02-15

更新于

2023-09-14

许可协议