如何为Lua 5.1构建反编译器?

我正在为Lua 5.1构建反编译器。(仅出于学习目的)

以下是生成的代码:

main <test.lua:0,0>(12个指令,在008D0520处占用48个字节)
0+ 参数,2 个插槽,0 个upvalue,0 个本地变量,6 个常数,0 个函数
        1       [1]     LOADK           0 -2    ; 2
        2       [1]     SETGLOBAL       0 -1    ; plz_help_me
        3       [2]     LOADK           0 -4    ; 24
        4       [2]     SETGLOBAL       0 -3    ; oh_no
        5       [3]     GETGLOBAL       0 -1    ; plz_help_me
        6       [3]     GETGLOBAL       1 -3    ; oh_no
        7       [3]     ADD             0 0 1
        8       [3]     SETGLOBAL       0 -5    ; plz_work
        9       [4]     GETGLOBAL       0 -6    ; print
        10      [4]     GETGLOBAL       1 -5    ; plz_work
        11      [4]     CALL            0 2 1
        12      [4]     RETURN          0 1
008D0520处的常数(6):
        1       "plz_help_me"
        2       2
        3       "oh_no"
        4       24
        5       "plz_work"
        6       "print"
008D0520处的本地变量(0):
008D0520处的upvalue(0):

原始代码:

plz_help_me = 2
oh_no = 24
plz_work = plz_help_me + oh_no
print(plz_work)

如何高效地构建反编译器以生成此代码?我应该使用AST树来映射代码的行为吗?(在这种情况下是操作码)

点赞
用户293147
用户293147

Lua VM 是一个寄存器机器,拥有几乎无限的寄存器供应,这意味着你不必处理寄存器分配的结果。与反汇编,比如 x86 相比,这使整个过程更容易接受。

一个非常方便的上层抽象表示为 SSA。一个将寄存器作为本地变量指针处理并保留内存加载的简单转换,然后进行 SSA 转换 [1],将为您提供适合进一步分析的代码。接下来的步骤将是循环检测(纯在 CFG 级别上进行),以及在 SSA 的帮助下,循环变量和循环不变量的检测。一旦完成,您将看到只存在几个常见模式,可以直接转换为更高级别的循环。一旦进入 SSA,检测 if 和其他线性控制流程序列甚至更容易。

SSA 的一个好处是您可以轻松地从中构建高级别 AST 表达式。对于每个 SSA 变量,您都有一个使用计数,因此可以简单地将所有单个使用变量(未由副作用指令生成)替换为它们的 use 位置(以及保持它们的顺序的带副作用的使用变量)。只有多用途变量会保留。

当然,您永远不会从此过程中获得有意义的本地变量名称。全局变量得到保留。

[1] https://pfalcon.github.io/ssabook/latest/

2021-05-17 07:35:56