基于Intel Extension for PyTorch和锐炫
本文将介绍在英特尔锐炫显卡上训练ResNet(PyTorch模型)的全流程,在下一篇中将介绍基于OpenVINO在AIxBoard上部署训练好的模型。在阅读本文前,请先在Ubuntu22.04上安装英特尔锐炫™独立显卡驱动程序
1. 搭建基于英特尔锐炫™独立显卡训练PyTorch模型的开发环境
1.1 环境要求:
在Ubuntu22.04上基于英特尔独立显卡训练PyTorch模型,需要依次安装:
- 英特尔独立显卡的驱动程序
- Intel® oneAPI Base Toolkit 2023.0
- torch 1.13.0a0和torchvision 0.14.1a0
- intel-extension-for-pytorch
1.2 安装英特尔独立显卡的驱动程序
请参考《在Ubuntu22.04上安装英特尔锐炫™独立显卡驱动程序》完成英特尔独立显卡的驱动安装。安装成功后,可以在About窗口Graphics一栏看到英特尔独立显卡的型号。
A7701.3 下载并安装Intel® oneAPI Base Toolkit
第一步,通过下面的命令下载Intel® oneAPI Base Toolkit并启动安装程序:
wget https://registrationcenter-download.intel.com/akdlm/irc_nas/19079/l_BaseKit_p_2023.0.0.25537.sh
安装Intel oneAPI Base Toolkit 第二步,保持默认选项,完成Intel® oneAPI Base Toolkit安装 安装时,保持默认选项sudo sh ./l_BaseKit_p_2023.0.0.25537.sh
1.4 安装torch、torchvision和intel-extension-for-pytorch
使用命令安装torch、torchvision和intel-extension-for-pytorch:
安装torch、torchvision和intel-extension-for-pytorchpython -m pip install torch==1.13.0a0 torchvision==0.14.1a0 intel_extension_for_pytorch==1.13.10+xpu -f https://developer.intel.com/ipex-whl-stable-xpu
到此,在Ubuntu平台上基于Intel Extension for PyTorch和锐炫显卡训练PyTorch模型的开发环境配置完毕!!
2. 训练 PyTorch ResNet模型
第一步,请通过以下命令激活oneAPI环境,DPC++ 编译器和 oneMKL 环境:
source /opt/intel/oneapi/setvars.sh
source /opt/intel/oneapi/compiler/latest/env/vars.sh
source /opt/intel/oneapi/mkl/latest/env/vars.sh
第二步,请下载training_on_Intel_dGPU_bf16_ipex.py并运行,该范例代码使用了PyTorch自带的Food101数据集和resnet50预训练模型参数
核心代码片段:
model = torchvision.models.resnet50(weights='IMAGENET1K_V2',num_classes=101)
model = model.to('xpu')
criterion = torch.nn.CrossEntropyLoss()
optimizer = torch.optim.SGD(model.parameters(), lr = LR, momentum=0.9)
model.train()
model, optimizer = ipex.optimize(model, optimizer=optimizer, dtype=torch.bfloat16)
# 训练循环
for epoch in range(epochs):
tloss,vloss = 0.0, 0.0
top1,top5 = 0.0, 0.0
pbar = tqdm(enumerate(train_loader),total=len(train_loader), bar_format=TQDM_BAR_FORMAT)
for i, (data, target) in pbar:
model.train()
data = data.to('xpu')
target = target.to('xpu')
with torch.xpu.amp.autocast():
output = model(data)
loss = criterion(output, target)
loss.backward()
optimizer.step()
optimizer.zero_grad()
tloss = (tloss*i + loss.item()) / (i+1)
if i == len(pbar) - 1:
pred,targets,vloss = [], [], 0
n = len(val_loader)
# 评估训练精度
model.eval()
with torch.xpu.amp.autocast():
for d, (images, labels) in enumerate(val_loader):
images = images.to('xpu')
labels = labels.to('xpu')
y = model(images)
pred.append(y.argsort(1, descending=True)[:, :5])
targets.append(labels)
vloss += criterion(y, labels).item()
运行结果:
基于Intel Extension for PyTorch和锐炫显卡训练PyTorch ResNet模型
3 结论:
与传统FP32精度训练模型相比,Intel Extension for PyTorch支持的BF16精度能更加高效利用独立显卡,基于单卡英特尔A750和Ubuntu22.04的环境,笔者还分别测试了基于Food101数据集的Resnet50模型和Resnet101模型各自的BF16格式和FP32格式的最大batch_size及其训练时的最大显存使用率。
BF16 | FP32 | |
---|---|---|
ResNet50 | 最大batch_size:128 | 最大batch_size:64 |
ResNet101 | 最大batch_size:96 | 最大batch_size:48 |