string.sub在处理非英文字符时存在问题。

我需要获取文本变量的第一个字符。我可以使用以下其中一种简单方法来实现:

string.sub(someText,1,1)

或者

someText:sub(1,1)

如果我使用下面的代码,我期望得到 'ñ' 作为第一个字符。然而,任何 sub 方法的结果都是 'Ã'

local someText = 'ñññññññ'
print('Test whole: '..someText)
print('first char: '..someText:sub(1,1))
print('first char with .sub: '..string.sub(someText,1,1))

这是控制台的结果:

2014-03-02 09:08:47.959 Corona Simulator[1701:507] Test whole: ñññññññ
2014-03-02 09:08:47.960 Corona Simulator[1701:507] first char: Ã
2014-03-02 09:08:47.960 Corona Simulator[1701:507] first char with .sub: Ã

似乎 string.sub() 函数对返回的值进行了 UTF-8 编码。我试着使用 Corona SDK 提供的 utf8_decode() 函数。然而没有成功。模拟器指出该函数期望得到一个数字,但实际上是 nil

我还搜索了一下网络,看看是否还有其他人遇到了这个问题。我发现有很多关于 Lua、Corona、Unicode 和 UTF-8 的讨论,但没有找到任何针对这个具体问题的解决办法。

点赞
用户1009479
用户1009479

Lua字符串是8位清洁的,这意味着Lua中的字符串是字节流。UTF-8字符ñ有多个字节,但someText:sub(1,1)仅返回第一个单字节。

对于UTF-8编码,ASCII范围内的所有字符与ASCII相同,即小于128的单个字节。对于其他CodePoints,字节序列的第一个字节在194-244范围内,连续字节在128-191范围内。

因此,您可以使用模式“. [\ 128-\ 191] *”来匹配单个UTF-8 CodePoint(而不是字符):

for c in "ñññññññ": gmatch(“。[\128-\191]*”)do --假装第一个字符串在NFC中
    print(c)
end

输出:

ñ
ñ
ñ
ñ
ñ
ñ
ñ
2014-03-02 15:41:31
用户3204551
用户3204551

关于所用的字符集: 要知道你在自己的代码中嵌入了什么要求,并确保这些要求得到实际满足。 有各种典型的要求:

  • 兼容ASCII(即任何小于128的字节表示ASCII字符,所有ASCII字符都表示为它们自己)
  • 固定大小与变宽字符集(可能是自同步)
  • 没有嵌入的 0 字节

编写代码时,尽量避免需要这些要求,并记录它们。

匹配单个UTF-8字符:一定要确定你所说的UTF-8字符是什么意思。是字形还是码点?据我所知,你需要完整的Unicode表才能匹配字形。你真的必须到这个层次吗?

2014-03-02 18:29:21