阿拉伯字母在Lua中的长度

在 Lua 语言中,当我想要获取单个阿拉伯字母(例如“ف”)的长度时,答案将是2

例如:

local letter = "ف"
print(letter:len())

输出: 2

当我使用(string.sub(a,b))函数时,也会出现相同的问题。如果我想要打印阿拉伯单词的第一个字母,我不能说(string.sub(1,1)

例如:

local word_1 = "فولت"
print(word_1:sub(1,2))

输出: ف

正如你所看到的,我放置了第二个参数(2),而不是(1)才得到了正确的答案。

如果我将第一个参数设为1,答案将是:

print(word_1:sub(1,1))

输出: Ù

为什么 Lua 认为单个阿拉伯字母长度为2呢?

有没有一种方法来获取正确的长度,即1?

点赞
用户1009479
用户1009479

Lua 是具有 8 位无损性的。

换句话说,Lua 字符串是一个字节序列,它不支持内部的 Unicode。阿拉伯字母“ف”有 2 个字节,所以 Lua 把它当作长度为 2 的字符串处理。

你需要使用一种特殊的技巧来操作 Unicode,例如,假设使用 UTF-8,你可以使用这段代码来计算一个字符串的长度(参考:Lua Unicode):

local _, count = string.gsub(unicode_string, "[^\128-\193]", "")
2014-01-15 13:27:30
用户3204551
用户3204551

Lua 的 8 位清洁足以说明 Lua 支持 Unicode。尽管没有额外的 Unicode 支持库,但支持程度很少。 对于任何 Unicode 字符串,至少有 4 种测量方法:代码单元,代码点,图形簇。第四种是字节数,它是代码单元的常数倍数,取决于使用哪种 UTF。UTF-8:1UTF16:2UTF32:4。 因此,请清楚地想清楚你需要在哪些地方使用这些措施。

2014-01-16 22:40:40
用户1009479
用户1009479

Lua 5.3现在已经发布。它提供了一个基本的UTF-8库。

utf8.len函数可用于获取UTF-8字符串的长度:

print(utf8.len("ف"))
-- 1
2015-01-14 11:33:19