ec2 run machine learning project
2021-12-19 本文已影响0人
NatsuYori
自己的机器配置太慢了,所以打算在ec2上搭环境跑。可恶昨天居然搭了一天!记录一下主要碰到的问题
- ec2上有8个gpu,结果code只能拿到一个gpu。原因是环境变量CUDA_VISIBLE_DEVICES只配置了一个。
解决方案:
export CUDA_VISIBLE_DEVICES="0,1,2,3,4,5,6,7"
或者是在code里面:
os.environ["CUDA_VISIBLE_DEVICES"]="0,1,2,3,4,5,6,7"
- 后来开了一个更大的ec2,有16个gpu。但是code run不起来,报错 CUDA peer resources error 这个问题没有根本解决,最后认命把gpu调到8个了。但是有类似问题可以参考下这个issue:https://github.com/NVIDIA/nccl/issues/51
- 安装fasttext遇到点问题,全程爆红,仔细看了下是gcc的版本太低了,手动升级版本就ok了
- transformers真的很好用!