string.sub在处理非英文字符时存在问题。

2014-3-4 7:0:48

收藏：0

阅读：103

评论：2

我需要获取文本变量的第一个字符。我可以使用以下其中一种简单方法来实现：

string.sub(someText,1,1)

或者

someText:sub(1,1)

如果我使用下面的代码，我期望得到 'ñ' 作为第一个字符。然而，任何 sub 方法的结果都是 'Ã'。

local someText = 'ñññññññ'
print('Test whole: '..someText)
print('first char: '..someText:sub(1,1))
print('first char with .sub: '..string.sub(someText,1,1))

这是控制台的结果：

2014-03-02 09:08:47.959 Corona Simulator[1701:507] Test whole: ñññññññ
2014-03-02 09:08:47.960 Corona Simulator[1701:507] first char: Ã
2014-03-02 09:08:47.960 Corona Simulator[1701:507] first char with .sub: Ã

似乎 string.sub() 函数对返回的值进行了 UTF-8 编码。我试着使用 Corona SDK 提供的 utf8_decode() 函数。然而没有成功。模拟器指出该函数期望得到一个数字，但实际上是 nil。

我还搜索了一下网络，看看是否还有其他人遇到了这个问题。我发现有很多关于 Lua、Corona、Unicode 和 UTF-8 的讨论，但没有找到任何针对这个具体问题的解决办法。

用户1009479

Lua字符串是8位清洁的，这意味着Lua中的字符串是字节流。UTF-8字符ñ有多个字节，但someText:sub(1,1)仅返回第一个单字节。

对于UTF-8编码，ASCII范围内的所有字符与ASCII相同，即小于128的单个字节。对于其他CodePoints，字节序列的第一个字节在194-244范围内，连续字节在128-191范围内。

因此，您可以使用模式“. [\ 128-\ 191] *”来匹配单个UTF-8 CodePoint（而不是字符）：

for c in "ñññññññ": gmatch（“。[\128-\191]*”）do --假装第一个字符串在NFC中
    print（c）
end

输出：

ñ
ñ
ñ
ñ
ñ
ñ
ñ

2014-03-02 15:41:31

用户3204551

关于所用的字符集：要知道你在自己的代码中嵌入了什么要求，并确保这些要求得到实际满足。有各种典型的要求：

兼容ASCII（即任何小于128的字节表示ASCII字符，所有ASCII字符都表示为它们自己）
固定大小与变宽字符集（可能是自同步）
没有嵌入的 0 字节

编写代码时，尽量避免需要这些要求，并记录它们。

匹配单个UTF-8字符：一定要确定你所说的UTF-8字符是什么意思。是字形还是码点？据我所知，你需要完整的Unicode表才能匹配字形。你真的必须到这个层次吗？

2014-03-02 18:29:21

评论区的留言会收到邮件通知哦~

作者:

用户1824782

技术支撑

Nana 框架
Kong API 网关
Nuxt 服务端渲染

统计信息

会员 0
文章数: 0
话题数: ...