33.深度学习模型优化加速方法-2

2023-01-29 本文已影响0人大勇任卷舒

33.1 TensorRT如何优化重构模型

条件	方法
若训练的网络模型包含TensorRT支持的操作	1、对于Caffe与TensorFlow训练的模型，若包含的操作都是TensorRT支持的，则可以直接由TensorRT优化重构
	2、对于MXnet, PyTorch或其他框架训练的模型，若包含的操作都是TensorRT支持的，可以采用TensorRT API重建网络结构，并间接优化重构；
若训练的网络模型包含TensorRT不支持的操作	1、TensorFlow模型可通过tf.contrib.tensorrt转换，其中不支持的操作会保留为TensorFlow计算节点；
	2、不支持的操作可通过Plugin API实现自定义并添加进TensorRT计算图；
	3、将深度网络划分为两个部分，一部分包含的操作都是TensorRT支持的，可以转换为TensorRT计算图。另一部则采用其他框架实现，如MXnet或PyTorch；

33.2 TensorRT加速效果如何

以下是在TitanX (Pascal)平台上，TensorRT对大型分类网络的优化加速效果：

Network	Precision	Framework/GPU:TitanXP	Avg.Time(Batch=8,unit:ms)	Top1 Val.Acc.(ImageNet-1k)
Resnet50	fp32	TensorFlow	24.1	0.7374
Resnet50	fp32	MXnet	15.7	0.7374
Resnet50	fp32	TRT4.0.1	12.1	0.7374
Resnet50	int8	TRT4.0.1	6	0.7226
Resnet101	fp32	TensorFlow	36.7	0.7612
Resnet101	fp32	MXnet	25.8	0.7612
Resnet101	fp32	TRT4.0.1	19.3	0.7612
Resnet101	int8	TRT4.0.1	9	0.7574

33.3 影响神经网络速度的4个因素

FLOPs(FLOPs就是网络执行了多少multiply-adds操作)；
MAC(内存访问成本)；
并行度(如果网络并行度高，速度明显提升)；
计算平台(GPU，ARM)

33.4 压缩和加速方法如何选择

１）对于在线计算内存存储有限的应用场景或设备，可以选择参数共享和参数剪枝方法，特别是二值量化权值和激活、结构化剪枝．其他方法虽然能够有效的压缩模型中的权值参数，但无法减小计算中隐藏的内存大小（如特征图）．
２）如果在应用中用到的紧性模型需要利用预训练模型，那么参数剪枝、参数共享以及低秩分解将成为首要考虑的方法．相反地，若不需要借助预训练模型，则可以考虑紧性滤波设计及知识蒸馏方法．
３）若需要一次性端对端训练得到压缩与加速后模型，可以利用基于紧性滤波设计的深度神经网络压缩与加速方法．
４）一般情况下，参数剪枝，特别是非结构化剪枝，能大大压缩模型大小，且不容易丢失分类精度．对于需要稳定的模型分类的应用，非结构化剪枝成为首要选择．
５）若采用的数据集较小时，可以考虑知识蒸馏方法．对于小样本的数据集，学生网络能够很好地迁移教师模型的知识，提高学生网络的判别性．
６）主流的５个深度神经网络压缩与加速算法相互之间是正交的，可以结合不同技术进行进一步的压缩与加速．如：

结合了参数剪枝和参数共享
结合了参数剪枝和低秩分解
此外对于特定的应用场景，如目标检测，可以对卷积层和全连接层使用不同的压缩与加速技术分别处理

33.深度学习模型优化加速方法-2

33.1 TensorRT如何优化重构模型

33.2 TensorRT加速效果如何

33.3 影响神经网络速度的4个因素

33.4 压缩和加速方法如何选择

猜你喜欢

热点阅读