深度学习服务器搭建笔记——从硬件选择到环境安装
2019-04-02 本文已影响0人
huxycn
一、硬件选择
快速指南
GPU:
- RTX 2070 、RTX 2080 Ti、GTX 1070、GTX 1080 和 GTX 1080 Ti。
CPU:
- 每个 GPU 1-2 核,这取决于你的数据预处理;
- 只要主频大于 2GHz,那 CPU 就应该支持我们想要运行的大量 GPU,PCIe 通道并不是太重要。
RAM:
- 时钟频率无关紧要,买更便宜的 RAM;
- 购入至少和你已有 GPU 内存大小相同的 CPU 内存;
- 只有更需要时才买更多的 RAM;如果要使用超大规模的数据集,那么需要更多的内存。
硬盘/SSD:
- 用于存储数据的硬盘驱动器至少需要 3TB;
- 使用 SSD 预处理小数据集。
PSU:
- GPU+CPU+10% 就是你必需的电源供应量,再将总电量乘以 110% 而获得最终所需要的电源功率;
- 如果使用多块 GPU,还要增加一些额外的电源供应量;
- 确保 PSU 有足够的 PCIe 连接器(6+8pins);
- 附:PSU计算器
散热:
- CPU,使用标准的 CPU 散热器或一体化的水冷解决方案;
- GPU,使用空气散热、使用鼓风机式的散热器、配置风扇的速度。
主板:
- 尽可能获得更多的 PCIe 插槽,为未来增加 GPU 做好准备。
参考配置
CPU:i7-9700k
GPU:RTX-2080ti
RAM:DDR4 3000MHz 16G * 4
SSD:SATA SSD 512G
PSU:1000w
散热:塔式散热
主板:Z390
二、系统安装及初始配置
安装Ubuntu18.04LTS
下载Ubuntu18.04LTS镜像,用UltraISO制作U盘启动盘,按照提示一步一步安装
更换apt源
备份配置文件:sudo mv /etc/apt/sources.list /etc/apt/sources.list.bak
将以下内容复制到/etc/apt/sources.list
文件中
deb http://mirrors.aliyun.com/ubuntu/ bionic main restricted universe multiverse
deb-src http://mirrors.aliyun.com/ubuntu/ bionic main restricted universe multiverse
deb http://mirrors.aliyun.com/ubuntu/ bionic-security main restricted universe multiverse
deb-src http://mirrors.aliyun.com/ubuntu/ bionic-security main restricted universe multiverse
deb http://mirrors.aliyun.com/ubuntu/ bionic-updates main restricted universe multiverse
deb-src http://mirrors.aliyun.com/ubuntu/ bionic-updates main restricted universe multiverse
deb http://mirrors.aliyun.com/ubuntu/ bionic-backports main restricted universe multiverse
deb-src http://mirrors.aliyun.com/ubuntu/ bionic-backports main restricted universe multiverse
deb http://mirrors.aliyun.com/ubuntu/ bionic-proposed main restricted universe multiverse
deb-src http://mirrors.aliyun.com/ubuntu/ bionic-proposed main restricted universe multiverse
更新
sudo apt update
sudo apt upgrade
更换pip源
将以下内容复制到~/.pip/pip.conf
文件中
[global]
index-url=http://mirrors.aliyun.com/pypi/simple/
trusted-host=mirrors.aliyun.com
安装常用软件
chrome
sogou-linux
wps-linux
三、NVIDIA环境安装
不需要先单独安装驱动
安装gcc和cmake
sudo apt install gcc
sudo apt install cmake
安装cuda(过程中安装驱动)
选择合适的cuda版本,tensorflow1.13不支持cuda10.1
选择合适的cuda版本,tensorflow1.13不支持cuda10.1
选择合适的cuda版本,tensorflow1.13不支持cuda10.1
从官网下载cuda安装脚本
Snipaste_2019-04-09_07-58-23.png安装cuda的过程中会自动安装最新的驱动
安装完成后在.bashrc
中设置环境变量
export PATH=/usr/local/cuda/bin${PATH:+:${PATH}}
export LD_LIBRARY_PATH=/usr/local/cuda/lib64${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}}
export CUDA_HOME=/usr/local/cuda
运行source .bashrc
使其生效
安装cudnn
从官网下载cudnn,需登录
Snipaste_2019-04-09_08-01-02.png解压,复制文件到/usr/local/cuda
相关文件夹内
sudo cp cuda/include/cudnn.h /usr/local/cuda/include
sudo cp cuda/lib64/libcudnn* /usr/local/cuda/lib64
sudo chmod a+r /usr/local/cuda/include/cudnn.h /usr/local/cuda/lib64/libcudnn*
四、深度学习开发环境安装(tensorflow/pytorch)
安装Python包管理工具
下载miniconda3并安装,安装完成后source ~/.bashrc
新建python虚拟环境
conda create -n <env-name> python=3.6
进入python虚拟环境
conda activate <env-name>
安装python包
conda install <package-name>
安装常用Python库
tensorflow/pytorch
conda install tensorflow-gpu
conda install pytorch
numpy
pandas
pillow
jupyter
IDE/编辑器选择
Pycharm
VS Code
Vim/Emacs/Sublime
五、CPU/GPU监控工具
htop
监控CPU和RAM
htop
nvidia-smi
监控GPU
watch -n 1 nvidia-smi