如何修改Andrej Karpathy的Char RNN以使用非文本数据类型
2019-4-23 21:39:7
收藏:0
阅读:91
评论:0
我正在尝试修改Andrej Karpathy的Char RNN,以使用256维的8或16位向量,而不是文本。
我已经阅读了代码,但我不完全理解它在做什么。
代码可以在这里找到https://github.com/karpathy/char-rnn 我认为只需要修改这个文件https://github.com/karpathy/char-rnn/blob/master/util/CharSplitLMMinibatchLoader.lua 具体来说,需要修改以下部分
function CharSplitLMMinibatchLoader.text_to_tensor(in_textfile, out_vocabfile, out_tensorfile)
local timer = torch.Timer()
print('加载文本文件...')
local cache_len = 10000
local rawdata
local tot_len = 0
local f = assert(io.open(in_textfile, "r"))
-- 创建词汇表(如果尚不存在)
print('创建词汇表映射...')
-- 将所有字符记录到一个集合中
local unordered = {}
rawdata = f:read(cache_len)
repeat
for char in rawdata:gmatch'.' do
if not unordered[char] then unordered[char] = true end
end
tot_len = tot_len + #rawdata
rawdata = f:read(cache_len)
until not rawdata
f:close()
-- 将 unordered 表格排序到 ordered 表格中(即:keys 变为 1..N)
local ordered = {}
for char in pairs(unordered) do ordered[#ordered + 1] = char end
table.sort(ordered)
-- 反转 ordered 表格,以创建char->int映射
local vocab_mapping = {}
for i, char in ipairs(ordered) do
vocab_mapping[char] = i
end
-- 使用所有数据构建张量
print('将数据放入张量中...')
local data = torch.ByteTensor(tot_len) -- 先存储在1D中,然后重新排列
f = assert(io.open(in_textfile, "r"))
local currlen = 0
rawdata = f:read(cache_len)
repeat
for i=1, #rawdata do
data[currlen+i] = vocab_mapping[rawdata:sub(i, i)] -- lua 不能使用[]进行字符串索引
end
currlen = currlen + #rawdata
rawdata = f:read(cache_len)
until not rawdata
f:close()
-- 保存预处理的输出文件
print('保存 ' .. out_vocabfile)
torch.save(out_vocabfile, vocab_mapping)
print('保存 ' .. out_tensorfile)
torch.save(out_tensorfile, data)
end
由于我不懂Python、Torch或Lua,所以有点迷茫。
点赞
评论区的留言会收到邮件通知哦~
推荐文章
- Lua 虚拟机加密load(string.dump(function)) 后执行失败问题如何解决
- 我想创建一个 Nginx 规则,禁止访问
- 如何将两个不同的lua文件合成一个 东西有点长 大佬请耐心看完 我是小白研究几天了都没搞定
- 如何在roblox studio中1:1导入真实世界的地形?
- 求解,lua_resume的第二次调用继续执行协程问题。
- 【上海普陀区】内向猫网络招募【Skynet游戏框架Lua后端程序员】
- SF爱好求教:如何用lua实现游戏内调用数据库函数实现账号密码注册?
- Lua实现网站后台开发
- LUA错误显式返回,社区常见的规约是怎么样的
- lua5.3下载库失败
- 请问如何实现文本框内容和某个网页搜索框内容连接,并把网页输出来的结果反馈到另外一个文本框上
- lua lanes多线程使用
- 一个kv数据库
- openresty 有没有比较轻量的 docker 镜像
- 想问一下,有大佬用过luacurl吗
- 在Lua执行过程中使用Load函数出现问题
- 为什么 neovim 里没有显示一些特殊字符?
- Lua比较两个表的值(不考虑键的顺序)
- 有个lua简单的项目,外包,有意者加微信 liuheng600456详谈,最好在成都
- 如何在 Visual Studio 2022 中运行 Lua 代码?
