string.sub在处理非英文字符时存在问题。
2014-3-4 7:0:48
收藏:0
阅读:103
评论:2
我需要获取文本变量的第一个字符。我可以使用以下其中一种简单方法来实现:
string.sub(someText,1,1)
或者
someText:sub(1,1)
如果我使用下面的代码,我期望得到 'ñ' 作为第一个字符。然而,任何 sub 方法的结果都是 'Ã'。
local someText = 'ñññññññ'
print('Test whole: '..someText)
print('first char: '..someText:sub(1,1))
print('first char with .sub: '..string.sub(someText,1,1))
这是控制台的结果:
2014-03-02 09:08:47.959 Corona Simulator[1701:507] Test whole: ñññññññ
2014-03-02 09:08:47.960 Corona Simulator[1701:507] first char: Ã
2014-03-02 09:08:47.960 Corona Simulator[1701:507] first char with .sub: Ã
似乎 string.sub() 函数对返回的值进行了 UTF-8 编码。我试着使用 Corona SDK 提供的 utf8_decode() 函数。然而没有成功。模拟器指出该函数期望得到一个数字,但实际上是 nil。
我还搜索了一下网络,看看是否还有其他人遇到了这个问题。我发现有很多关于 Lua、Corona、Unicode 和 UTF-8 的讨论,但没有找到任何针对这个具体问题的解决办法。
点赞
用户3204551
关于所用的字符集: 要知道你在自己的代码中嵌入了什么要求,并确保这些要求得到实际满足。 有各种典型的要求:
- 兼容ASCII(即任何小于128的字节表示ASCII字符,所有ASCII字符都表示为它们自己)
- 固定大小与变宽字符集(可能是自同步)
- 没有嵌入的 0 字节
编写代码时,尽量避免需要这些要求,并记录它们。
匹配单个UTF-8字符:一定要确定你所说的UTF-8字符是什么意思。是字形还是码点?据我所知,你需要完整的Unicode表才能匹配字形。你真的必须到这个层次吗?
2014-03-02 18:29:21
评论区的留言会收到邮件通知哦~
推荐文章
- 如何将两个不同的lua文件合成一个 东西有点长 大佬请耐心看完 我是小白研究几天了都没搞定
- 如何在roblox studio中1:1导入真实世界的地形?
- 求解,lua_resume的第二次调用继续执行协程问题。
- 【上海普陀区】内向猫网络招募【Skynet游戏框架Lua后端程序员】
- SF爱好求教:如何用lua实现游戏内调用数据库函数实现账号密码注册?
- Lua实现网站后台开发
- LUA错误显式返回,社区常见的规约是怎么样的
- lua5.3下载库失败
- 请问如何实现文本框内容和某个网页搜索框内容连接,并把网页输出来的结果反馈到另外一个文本框上
- lua lanes多线程使用
- 一个kv数据库
- openresty 有没有比较轻量的 docker 镜像
- 想问一下,有大佬用过luacurl吗
- 在Lua执行过程中使用Load函数出现问题
- 为什么 neovim 里没有显示一些特殊字符?
- Lua比较两个表的值(不考虑键的顺序)
- 有个lua简单的项目,外包,有意者加微信 liuheng600456详谈,最好在成都
- 如何在 Visual Studio 2022 中运行 Lua 代码?
- addEventListener 返回 nil Lua
- Lua中获取用户配置主目录的跨平台方法
Lua字符串是8位清洁的,这意味着Lua中的字符串是字节流。UTF-8字符
ñ有多个字节,但someText:sub(1,1)仅返回第一个单字节。对于UTF-8编码,ASCII范围内的所有字符与ASCII相同,即小于128的单个字节。对于其他CodePoints,字节序列的第一个字节在194-244范围内,连续字节在128-191范围内。
因此,您可以使用模式“
. [\ 128-\ 191] *”来匹配单个UTF-8 CodePoint(而不是字符):for c in "ñññññññ": gmatch(“。[\128-\191]*”)do --假装第一个字符串在NFC中 print(c) end输出: