luajit/lua5.1/lua5.2/lua5.3内存问题针对RNN代码

我一直在运行一段代码,train.lua,在这里找到:https://github.com/karpathy/char-rnn/blob/master/train.lua

这是一个基于SRNNs/LSTMs的字符级语言预测模型。在使用CPU的OSX上一切都运行得非常好,直到我尝试实现一个基于单词的预测模型。换句话说,该网络预测下一个单词,而不是下一个字母。词汇数(可能的结果)增加到13320,参数数量也增加到39963。在Luajit上,我得到了一个“内存不足”的错误消息,我正在寻找解决方案。我在这里找到了Luajit内存限制的问题:https://github.com/karpathy/char-rnn/issues/80

因此,我删除了torch并安装了纯lua。但是,LUA51、LUA52和LUA53都不起作用。我遇到了同样的内存问题。每次我运行训练代码时,它只是说“Kill:9”。特别是当我让它创建T(序列长度或时间步长)个隐藏层时,这个问题就会出现,这些隐藏层共享相同的权重,使用util/model_utils.lua文件中的“model_utils.clone_many_times”函数。

在我的案例中,该函数运行到克隆7个隐藏层的点,并在那里终止进程。我将rnn_size和batch_size都设置为1。当然,我想运行更大的网络,但是这种小的大小仍然无法运行代码。

更新:

这是我正在研究的解决方法。

克隆过程似乎有些多余,因为它存储了T个隐藏层。也许我们可以更改函数的方式,使其只在单位中携带激活,而不是在整个层中通过T个时间步长携带激活。我觉得唯一的问题是反向传播。隐藏单元的激活水平由表格init_state_global从一批到另一批保持不变。因此,我们必须在多个批次上建立反向传播的一些机制。

点赞