Ubuntu深度学习服务器安装及环境搭建(Pytorch版)
本文首发于简书,西北小生_的博客:https://www.jianshu.com/p/5e90f2deb9c4,转载请私信询问!
1.Ubuntu系统安装
参考我的这篇博客
2.Ubuntu源更新和指令集安装
1.执行命令:
sudo apt-get upgrade
sudo apt-get update
进行Ubuntu源和系统更新。
2.执行命令:
sudo apt-get install build-essential cmake g++ gfortran git
sudo apt-get install pkg-config python-dev software-properties-common wget
进行基本指令集、编译器和软件库等的安装。
3.执行命令:
sudo apt-get autoremove
删除为了满足其它软件包的依赖而安装的,但现在不再需要的软件包。
sudo rm -rf /var/lib/apt/lists/*
删除更新、缓存文件列表。
3.英伟达显卡驱动安装
1.打开终端,执行命令:
sudo apt-get purge nvidia-*
删除可能存在的已有驱动。
2.执行命令:
sudo add-apt-repository ppa:graphics-drivers/ppa
添加显卡驱动下载地址到ppa。
3.执行命令:
sudo apt-get update
4.执行命令:
ubuntu-drivers devices
查看显卡设备和显卡驱动。返回的文档中可以看到多个可用的显卡驱动,其中有一个系统推荐的型号,我的是“driver : nvidia-driver-450 - third-party free recommended”。
5.执行命令:
sudo apt-get install nvidia-driver-450
安装英伟达显卡驱动。【注意:nvidia-driver-450是英伟达显卡驱动的版本,根据实际版本进行修改!】
6.执行命令:
reboot
重启电脑。
7.重启完成后,打开终端,执行命令:
nvidia-smi
即可查看当前GPU使用情况。
4.CUDA安装
1.进入Pytorch官网查看你要安装的Pytorch版本需要的CUDA版本,该页面一般只显示最新版本,点击右下角的Previous versions of PyTorch查看Pytorch历史版本及其需要的CUDA版本。
2.进入https://developer.nvidia.com/cuda-downloads,在下方点击“Legacy Releases”,进入CUDA历史发行版本页面。
3.进入https://developer.nvidia.com/cuda-toolkit-archive,选择相应的CUDA版本,我这里选择CUDA 10.2,即CUDA Toolkit 10.2 (Nov 2019)选项,点击该超链接进入下载。
3.进入https://developer.nvidia.com/cuda-10.2-download-archive,依次选择“Linux——>x86_64——>Ubuntu——>18.04——>runfile(local)”,会在下方出现相应的安装命令。
4.执行命令:
wget http://developer.download.nvidia.com/compute/cuda/10.2/Prod/local_installers/cuda_10.2.89_440.33.01_linux.run
下载CUDA 10.2安装包,下载结束后执行命令:
sudo sh cuda_10.2.89_440.33.01_linux.run
安装CUDA 10.2。在输入accept按回车后会出现一个安装列表界面,其中第一项就是英伟达显卡驱动,滚动鼠标或按键盘上下键,选中英伟达驱动“nvidia driver”选项,按回车后确认这一项最前面的“[ x ]”变成“[ ]”,即取消安装英伟达驱动,再选中最下面的“Install”选项后按回车进行CUDA安装。之后一切选项都选择yes或回车,直到安装结束。
5.安装完成后,配置CUDA的环境变量,执行命令:
sudo gedit /etc/profile
打开profile文件的文本编辑界面,添加如下语句至文件末尾:
export PATH=/usr/local/cuda/bin:$PATH
export LD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATH
保存并退出文本编辑界面。【注意:修改 /etc/profile会使添加的路径对计算机所有用户生效;修改 ~/.bashrc仅使添加的路径对当前用户生效!以上两句添加的内容千万不能出错,否则会开不了机!别问我怎么知道的…】
6.返回终端,执行命令:
source /etc/profile
生效环境变量,然后重启计算机。
7.重启后登录,进入用户桌面,打开终端,执行命令:
nvcc -V
即可查看CUDA版本信息。
5.CUDA测试(可选,上步执行均无报错后可直接跳过这一步)
1.打开终端,执行命令:
/usr/local/cuda/bin/cuda-install-samples-10.2.sh ~/cuda-samples
注意:10.2是CUDA版本号,根据实际安装CUDA版本进行修改。
2.执行命令:
cd ~/cuda-samples/NVIDIA*Samples
进入指定目录。
3.执行命令:
make -j $(($(nproc) + 1))
进行编译。
4.执行命令:
bin/x86_64/linux/release/deviceQuery
进行CUDA样例测试,若返回“Result = PASS”则表明安装正常。
6.cuDNN安装
1.进入https://developer.nvidia.com/cudnn,点击下面的“Download cuDNN”按钮,进入Nvidia用户登录界面。
2.点击“Login”按钮,进行用户登录。新用户需先点击“Join Now”按钮进行注册,注册完成后再登录才能下载cuDNN。
3.在登录后跳转的页面中,勾选“I Agree To the Terms of the cuDNN Software License Agreement”前面的方框,在下方显示的下载列表中点击对应[Download cuDNN v8.0.2 (July 24th, 2020), for CUDA 10.2]的链接,在子列表中点击[cuDNN Library for Linux (x86)],下载cuDNN安装包。【注意:这里的cuDNN一定要和CUDA版本对应!】
4.下载完成后,打开终端,进入cuDNN下载文件所在目录(默认为 /home/Downloads文件夹下),执行命令:
tar -xzvf cudnn-10.2-linux-x64-v8.0.2.39.tgz
进行解压,获得5个涉及“cudnn”的文件。【注意:cudnn-10.2-linux-x64-v8.0.2.39.tgz为下载文件名,根据实际下载文件进行修改!】
5.解压完成后,执行命令:
sudo cp cuda/include/cudnn.h /usr/local/cuda/include
sudo cp cuda/lib64/libcudnn* /usr/local/cuda/lib64
将对应文件复制到系统根目录(usr/local)下。
sudo chmod a+r /usr/local/cuda/include/cudnn.h
sudo chmod a+r /usr/local/cuda/lib64/libcudnn*
赋予对应文件相应的访问、管理权限。
6.重启计算机,完成cuDNN的安装和配置。
7.ssh安装和启动
1.打开终端,执行命令:
sudo apt-get install ssh
进行ssh的安装。
2.执行命令:
ssh -V
查看ssh版本信息。
3.执行命令:
ps -e|grep ssh
查看ssh是否开启。若有返回“sshd”等信息,则ssh开启成功。
8.Anaconda安装
1.进入https://www.anaconda.com/products/individual,点击下方的“Download”按钮,进入下载页面。
2.点击页面右边的Linux 下方的64-Bit (x86) Installer (550 MB)链接,下载Anaconda安装包。
3.下载完成后,打开终端,进入安装包所在目录下(默认为/home/Downloads目录下),执行命令:
bash Anaconda3-2020.07-Linux-x86_64.sh
开始安装Anaconda。【注意:Anaconda3-2020.07-Linux-x86_64.sh为安装包的文件名,根据实际下载文件进行修改!】
4.安装过程中所有询问都选择accept/yes/回车。
5.安装完成后,执行命令:
source ~/.bashrc
(仅在当前用户下)生效环境变量,关闭当前终端,完成Anaconda的安装和配置。
6.打开新终端,输入命令:
python
进入python命令行界面,并返回类似“[GCC 7.3.0] :: Anaconda, Inc. on linux”的信息,则表明Anaconda安装和配置成功。
9.PyTorch安装
1.进入PyTorch官网,选择一款已安装的CUDA版本支持的PyTorch版本,执行命令:
conda install pytorch torchvision cudatoolkit=10.2 -c pytorch
安装PyTorch和tensorboard。对安装过程中的询问输出y回车即可。【注意:cudatoolkit选择相应的版本!】
2.如果在安装过程中出现下载pytorch太慢导致下载失败的话,可以尝试用pip命令安装。
3.如果还是失败的话,就需要更换国内的conda源,我们这里将conda源更换位清华源。
执行命令:
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/pytorch/
conda config --set show_channel_urls yes
更换位清华源。执行新的命令下载并安装pytorch,这里将第1步命令中的“-c”去掉:
conda install pytorch torchvision cudatoolkit=10.2 pytorch
到这里,PyTorch版本的深度学习服务器就安装完毕了。
10.安装VSCODE编辑器
vscode是微软推出的一款轻量文本编辑器,可以运行Python,C++,Java等编程语言,非常好用。旧版本的Anaconda自带vscode,新版本的需要自己单独安装。
1.进入https://code.visualstudio.com/download,点击中间企鹅下面左边的“.deb”下载按钮,会自动下载64位版本的安装包。
2.下载完成后,打开终端,进入安装包所在目录(默认为/home/Downloads)下,执行命令:
sudo dpkg -i code_1.48.0-1597304990_amd64.deb
sudo apt-get install -f
安装vscode。【注意:code_1.48.0-1597304990_amd64.deb为安装包的文件名,根据实际下载文件进行修改!】
3.安装完成后,执行命令:
code .
打开vscode界面。
4.点击左侧竖排第五个插件(Extensions)选项,在出现的小窗口上方的搜索框中输出python,一般下方第一个选项就是python解释器,点击右下角的Install按钮,安装python解释器。
python解释器
待安装完成后,就可以运行python程序了。
11.新建用户
1.执行命令:
sudo useradd -r -m -s /bin/bash new_user
创建新用户,用户名为new_user,可根据自己的用户名进行修改。
2.执行命令:
sudo passwd new_user
设置新用户的密码,按回车后即可看到密码输入提示。
设置成功后,执行命令:
cd /home/
切换至home目录下,执行命令:
ls
查看home目录下的子目录,若存在创建的新用户new_user命名的文件夹,说明创建新用户成功。