深度学习

cuda加速初体验

2019-05-31  本文已影响0人  逆风g

最近训练网络时,有个cpu版本的loss,非常耗时,最后把它写成了cuda版,大大减少了训练所需要的开销,一起来对比下:

总结

我的CPU比较low,好一点的CPU情况会好很多(测试过我同学的电脑,cpu版:1个loss打印耗时25秒,5个loss时打印耗时47秒,她显卡2080ti),我的显卡是1080ti,可以看到并行计算耗时大大减少,尤其是有多个loss时,时间也从近2天半的时间降到不到1天的时间。此外一个好的CPU也是非常非常关键的。
附1:
cpu版5个loss:


gpu版5个loss:

附2:
开辟cuda中一维线性内存:

Dtype* ptr;
CUDA_CHECK(cudaMalloc(&ptr, size_))

释放cuda中内存:

CUDA_CHECK(cudaFree(ptr))

申请好ptr空间可以直接在__global__kernel中使用,例如ptr[i]=1.0

上一篇 下一篇

猜你喜欢

热点阅读