将时间较长的大型图像发送到GPU

我正在使用使用Torch进行图像处理的Lua实现的CNN模型(AlexNet). 我正在修改Torch starter code

我的问题是,我正在制作具有18个通道而不是3个通道的图像以训练模型,并且为将这些图像发送到GPU,它需要大约20(每批次2.13秒)次的时间,而当发送具有三个通道的图像时,每批次只需要0.14秒。我还尝试了查看发送具有4个通道的图像需要多长时间。我看到,当通道数增加到超过3个通道时,时间会增加约20倍。例如,即使对于具有4个通道的图像,每个批次也需要大约2秒,比运行3个通道图像多约19倍。

我想知道是否存在导致需要这么长时间的错误,如果没有错误,是否有任何方法可以减少运行时间?

点赞
用户4023951
用户4023951

简短回答

这是一个无法解决的问题。这是一个 CPU 到 GPU 缓冲区带宽问题。你已经增加了需要通过总线发送的数据量。

可能的解决方法

你尝试的本质是在模型中包含先前的帧。如果这是你想要实现的,还有一种方法可以做到。

如果一个训练批次不是随机选择的堆叠图像,而是所有按时间顺序的常规图像。

在第二种情况下,您将发送仅具有 3 个通道的图像,但图像不会错乱。

让我们探索这个假设。

首先,你仍然可以通过更改每个批次的开始时间和结束时间并随机选择要使用哪个视频来创建随机采样。

其次,您可以使用[批次,高度,宽度,通道]张量在 GPU 上生成一个新张量,它是

[batch[1:],height,width,channel] - [batch[:-1],height,width,channel]
并将其分配给diffTensor

然后连接以下张量

origTensor [ batch[5:-0], height, width, channel]
diffTensor [ batch[5:-0], height, width, channel]
diffTensor [ batch[4:-1], height, width, channel]
diffTensor [ batch[3:-2], height, width, channel]
diffTensor [ batch[2:-3], height, width, channel]
diffTensor [ batch[1:-4], height, width, channel]
diffTensor [ batch[0:-5], height, width, channel]

如果您想要 5 个“回看”

这会实现什么?如果您将 100 个图像发送到 GPU,那么这个网络将能够为发送仅 100 个图像的网络价格生成 95 个图像 + 差异图像,而如果你尝试发送每个有 5 层的 95 个图像 + 差异图像,那么你将不得不支付发送 500 张图像的网络费用。基本上,你可以将你的网络成本减少 几乎 x5

2017-06-21 13:42:17