计算 WCHAR 字符串中字符的数量

2016-6-28 12:40:21

收藏：0

阅读：75

评论：1

Lua有一个名为 utf8.len() 的函数，该函数操作一个 const char*，按照文档执行以下操作：

返回字符串s中UTF-8字符的数量 https://www.lua.org/manual/5.3/manual.html#6.5

我正在使用一个与Win32 API接口的定制版Lua。每当我需要将一个UTF-8字符串传递给我的应用程序的Win32后端时，我就使用 MultiByteToWideChar() 将其从UTF-8转换为 WCHAR。现在我正在寻找一个函数，该函数与Lua的 utf8.len() 函数完全相同，但接受一个UTF-16 WCHAR*字符串而不是一个UTF-8 const char*字符串。请不要问我任何Unicode细节和术语讨论。我已经被告知在谈论Unicode时术语 character 非常模糊，但是Lua文档确切地使用了这个术语（请参见上面）。因此，我想要的是一个与Lua的 utf8.len() 完全相同的函数，但是它在 WCHAR* 而不是 const char* 上操作... 不管Lua的作者实际上是什么意思。我只想有一个函数，它给我与 utf8.len() 完全相同的计数，但它操作由 MultiByteToWideChar() 从UTF-8字符串生成的UTF-16 WCHAR*字符串。

我希望问题现在足够清楚了...

最后一个注意：如果可能的话，我想避免使用ICU等外部库。首选Win32 API解决方案。

用户3408572

查看 Lua utf8 源代码，utf8.len() 只是计算代码点的数量，因此（例如）组合字符将被单独计算。因此，应该使用wcslen()。

然而，您应该注意，如果字符串包含 BMP 之外的字符（U+10000 或更高；例如 Emoji），wcslen() 无法返回与 utf8.len() 相同的值。这是因为 UTF-16 无法使用单个代码点表示它们；相反，它不得不将代码点分成两个特殊的代码点，组合后称为_代理对_。如果您需要将代理对视为单个代码点，则必须自己编写该长度循环。

2016-06-28 18:15:46

评论区的留言会收到邮件通知哦~

作者:

用户1197719

技术支撑

Nana 框架
Kong API 网关
Nuxt 服务端渲染

统计信息

会员 0
文章数: 0
话题数: ...