lua,截取包含utf-8编码字符的字符串
我正在重写一个awk程序,用于格式化要输出到状态栏的字符串。我不是程序员,只是在利用业余时间学习。
当截取任何非ASCII字符,例如西里尔字母(utf8),结果会显示为一系列问号,显示出损坏的输出。
Ouverture Il Ritorno dall'Estero op. 89 / Mendelsshon / Великие �… / 320 kb/s
string.len和#计算的是字节数而不是字符数。而单个西里尔字母的计数为2个字节而不是1个字节。这显然会使截断复杂化。幸运的是,Lua 5.3包含了一个utf8库,unicode支持的wiki,用于简化处理非ascii字符。我修改了"shorten"函数,使用utf8.len来获取准确的字符数以进行截断,但问题仍然存在。
--来自penlight库,使用utf8.len,而不是string.len
function shorten(s,w)
local ellipsis = "…"
local n_ellipsis = utf8.len(ellipsis)
assert_string(1,s)
if utf8.len(s) > w then
return s:sub(1,w-n_ellipsis) .. ellipsis
end
return s
end
进一步阅读后,我学到了要使用utf8.offset来实现所需的字节索引。
您应该在任何需要处理您自己没有编写或可能包含非ASCII或非英文字符的文本的地方使用这些函数。如果在非码点之间截取字符串的字节索引,您将得到一个无效的UTF-8字符串,可能会呈现不正确或无法存储在DataStore中。
如果您在索引处截断字符串,则应使用utf8.offset给出的字节索引的string.sub。
我一直在努力弄清如何使用utf8.offset来获取所需的字节索引,但迄今为止,一无所获。如果需要更多上下文,请查看我的不成熟的完整脚本
任何提示,代码,批评等都会受到欢迎。
- Lua 虚拟机加密load(string.dump(function)) 后执行失败问题如何解决
- 我想创建一个 Nginx 规则,禁止访问
- 如何将两个不同的lua文件合成一个 东西有点长 大佬请耐心看完 我是小白研究几天了都没搞定
- 如何在roblox studio中1:1导入真实世界的地形?
- 求解,lua_resume的第二次调用继续执行协程问题。
- 【上海普陀区】内向猫网络招募【Skynet游戏框架Lua后端程序员】
- SF爱好求教:如何用lua实现游戏内调用数据库函数实现账号密码注册?
- Lua实现网站后台开发
- LUA错误显式返回,社区常见的规约是怎么样的
- lua5.3下载库失败
- 请问如何实现文本框内容和某个网页搜索框内容连接,并把网页输出来的结果反馈到另外一个文本框上
- lua lanes多线程使用
- 一个kv数据库
- openresty 有没有比较轻量的 docker 镜像
- 想问一下,有大佬用过luacurl吗
- 在Lua执行过程中使用Load函数出现问题
- 为什么 neovim 里没有显示一些特殊字符?
- Lua比较两个表的值(不考虑键的顺序)
- 有个lua简单的项目,外包,有意者加微信 liuheng600456详谈,最好在成都
- 如何在 Visual Studio 2022 中运行 Lua 代码?

感谢 Egor 提供的解决方案。在 Lua 5.3 中:
返回 s:sub(1, utf8.offset(s, w - n_ellipsis + 1) - 1) .. ellipsis