这是一个解决LuaJit和Torch中“内存不足”的实用方法吗?

当使用超过30K个实例的数据集结合StanfordNLP的TreeLSTM时,LuaJit会出现“内存不足”的错误。我通过使用LuaJit数据结构(LDS)来解决这个问题。为了将数据集放在lua堆之外,需要将树放置在LDS.vector中。

由于LDS.vector包含cdata,因此第一步是将Tree类型转换为cdata对象:

``' local ffi = require('ffi')

ffi.cdef([[ typedef struct CTree { struct CTree* parent; int num_children; struct CTree* children [25]; int idx; int gold_label; int leaf_idx; } CTree; ]])

```

还需要在read_data.lua中进行一些小的更改,以处理新的cdata CTree类型。到目前为止,使用LDS似乎是解决内存限制的合理方法;但是,CTree需要一个名为'composer'的字段。

Composer的类型是nn.gModule。继续使用这种解决方案将涉及创建nn.gModule的typedef作为cdata,包括为其成员创建typedef。在继续之前,这是否是正确的方向?有谁有这个问题的经验?

点赞
用户1316615
用户1316615

正如你所发现的那样,目前在 LuaJIT 中以堆友好的方式表示结构化数据有点棘手。

在 Tree-LSTM 实现中,树表格每个都持有一个指向作曲家实例的指针,主要为了方便实现。

避免使用 nn.gModule 的 typedef 的一个解决方法是使用现有的 idx 字段来索引作曲家实例表格。在这种方法中,一对(sentence_idxnode_idx)可以在全局两级作曲家实例表格中唯一地标识一个作曲家。为避免内存问题,当前的清理代码可以被替换为在表格中设置相应索引为 nil 的一行。

2015-08-03 05:37:59