GPU服务器上搭建深度学习环境

2022-03-28 本文已影响0人辘轳鹿鹿

下载安装 anaconda 或者 miniconda, 之后使用 conda 命令安装

1 安装conda

cd ~/Downloads #cd到你想要安装的地方，随便哪里都可以

#curl是一个非常实用的、用来与服务器之间传输数据的工具
curl -sL \
  "https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh" > \
  "Miniconda3.sh"


bash Miniconda3.sh # 执行脚本文件安装，安装过程的选项可以全部使用默认值
conda update conda # 更新
rm Miniconda3.sh

遇到的问题：conda: command not found
解决：添加相关路径

vim ~/.bashrc  #bashrc 用来存储并加载你的终端配置和环境变量
#加入下面这句
export PATH="/home/你的username/miniconda/bin:$PATH"
#使bashrc立即生效
source ~/.bashrc

2 安装 torch gpu 及常用包

安装完 conda 后，一般不在 base 环境里工作，更推荐做法是新建特定的环境来安装特定场景的包

  conda create -n ml python=3.8 anaconda -y  #名为ml的环境
  conda activate ml #激活环境
  conda install pytorch torchvision torchaudio cudatoolkit=10.2 -c pytorch -y #安装 torch gpu 版本，这个命令来自 PyTorch 官网

  #conda install -c anaconda nltk gensim -y #可选的 nlp 处理包
  #conda install -c huggingface transformers -y # 常用 预训练模型接口

一般来说，尽可能使用 conda 命令安装 python 包，如果 conda 中没有收录这个包，可以使用 pip install 进行安装。

实际上安装 gpu 前，可以先用 nvidia-smi 或者 nvidia-smi | head 命令查看 CUDA 版本，如下显示 CUDA 为 11.2, 对照 PyTorch 官网的安装选项卡，选择 11.2 或者更低版本的 CUDA 安装命令即可。
当前服务器的 CUDA 基本都是 10.2 或者于之兼容的版本，因此实际中使用 10.2 就可以了。

3 GPU测试

进入 python shell, 交互式执行以下命令

image.png

运行代码前，可以在另一个 shell 窗口输入 watch nvidia-smi 来实时观察 GPU 的运行情况.
这个命令也常用于跑模型时观察 GPU 使用情况，例如检查是否 GPU 使用率较低等。

4 conda 环境管理常用命令

conda clean --all: 清除缓存，一般在删除了某些包，或者升级了包之后执行，可以清理掉许多低版本的安装包

conda env list: 列出所有可用环境

conda list: 列出当前环境里的所有包

conda update -n base -c defaults conda 更新 base 环境，包括升级 conda

conda env export > environment.yml: 将当前环境中所有的包导出为 yml 文件，用于分享

conda env create -f environment.yml: 根据导出的列表新建环境。

conda remove -n your_env_name(虚拟环境名称) --all #删除虚拟环境

除了 python 相关包之外， conda 作为一个系统包管理器，还可以安装许多系统软件，

conda install htop -c https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge/ 
#安装 htop.

有用就留个赞再走吧^_^

GPU服务器上搭建深度学习环境

1 安装conda

2 安装 torch gpu 及常用包

3 GPU测试

4 conda 环境管理常用命令

猜你喜欢

热点阅读

GPU服务器上搭建深度学习环境

1 安装conda

2 安装 torch gpu 及 常用包

3 GPU测试

4 conda 环境管理常用命令

猜你喜欢

热点阅读

2 安装 torch gpu 及常用包