在Lua 5.1中与"[ \ 0- \ x7F \ xC2- \xF4] [ \ x80- \xBF] *"等效的模式。

当回答这个问题时,我编写了以下代码来迭代字符串中的UTF-8字节序列:

`` ` local str =“ KORYTNAČKA” 对于c in str:gmatch(“ [\ 0- \ x7F \ xC2- \ xF4] [\ x80- \xBF] *”)do 打印(c) end

`` `

它在Lua 5.2中工作,但在Lua 5.1中报告错误:

病态模式(缺少' ] ')

我记得在Lua 5.1中,不支持字符串字面值“ \ xhh”,所以我将其修改为:

`` ` local str =“ KORYTNAČKA” 对于c in str:gmatch(“ [\ 0- \ 127 \ 194- \ 244] [\ 128- \ 191] *”)do 打印(c) end

`` `

但错误仍然存在,如何解决?

点赞
用户1283847
用户1283847

我非常怀疑,这是由于模式中的\0所导致的。基本上,保存模式的字符串在应该之前就以空字符结尾。实际上,lua正则表达式引擎解析的是[\0。这明显是错误的模式,并且应该触发您当前获取的错误。

为了证明这个概念,我对模式进行了小小的更改:

local str = "KORYTNAÄŒKA"
for c in str:gmatch("[\x0-\x7F\xC2-\xF4][\x80-\xBF]*") do
    print(c)
end

这在lua 5.1.4上编译并运行如预期。演示

注意:我实际上没有查看模式在做什么。只是通过添加x来删除了\0。因此,修改后的代码的输出可能不是您期望的。

编辑:作为解决方法,您可能会考虑在第二个代码示例中用\\0(转义空字符)替换\0

local str = "KORYTNAÄŒKA"
for c in str:gmatch("[\\0-\127\194-\244][\128-\191]*") do
    print(c)
end

演示

2014-04-09 08:10:08
用户646619
用户646619

参见《Lua 5.1 手册》中的模式

模式中不能包含嵌入的零。请使用%z代替。

在Lua 5.2中,改为可以使用\0,但Lua 5.1不支持。只需将%z添加到第一个集合中,并将第一个范围更改为\1-\127

2014-04-09 12:22:42