计算 WCHAR 字符串中字符的数量

Lua有一个名为 utf8.len() 的函数,该函数操作一个 const char*,按照文档执行以下操作:

返回字符串s中UTF-8字符的数量 https://www.lua.org/manual/5.3/manual.html#6.5

我正在使用一个与Win32 API接口的定制版Lua。每当我需要将一个UTF-8字符串传递给我的应用程序的Win32后端时,我就使用 MultiByteToWideChar() 将其从UTF-8转换为 WCHAR。现在我正在寻找一个函数,该函数与Lua的 utf8.len() 函数完全相同,但接受一个UTF-16 WCHAR*字符串而不是一个UTF-8 const char*字符串。请不要问我任何Unicode细节和术语讨论。我已经被告知在谈论Unicode时术语 character 非常模糊,但是Lua文档确切地使用了这个术语(请参见上面)。因此,我想要的是一个与Lua的 utf8.len() 完全相同的函数,但是它在 WCHAR* 而不是 const char* 上操作... 不管Lua的作者实际上是什么意思。我只想有一个函数,它给我与 utf8.len() 完全相同的计数,但它操作由 MultiByteToWideChar() 从UTF-8字符串生成的UTF-16 WCHAR*字符串。

我希望问题现在足够清楚了...

最后一个注意:如果可能的话,我想避免使用ICU等外部库。首选Win32 API解决方案。

点赞
用户3408572
用户3408572

查看 Lua utf8 源代码utf8.len() 只是计算代码点的数量,因此(例如)组合字符将被单独计算。因此,应该使用wcslen()

然而,您应该注意,如果字符串包含 BMP 之外的字符(U+10000 或更高;例如 Emoji),wcslen() 无法返回与 utf8.len() 相同的值。这是因为 UTF-16 无法使用单个代码点表示它们;相反,它不得不将代码点分成两个特殊的代码点,组合后称为_代理对_。如果您需要将代理对视为单个代码点,则必须自己编写该长度循环。

2016-06-28 18:15:46