Lua - 从文件中读取一个UTF-8字符
2017-5-23 10:27:25
收藏:0
阅读:188
评论:3
有可能从文件中读取一个 UTF-8 字符吗?
当我打印时,file:read(1) 返回奇怪的字符。
function firstLetter(str)
return str:match("[%z\1-\127\194-\244][\128-\191]*")
end
该函数从字符串 str 返回一个 UTF-8 字符。我需要按这种方式读取一个 UTF-8 字符,但是从输入文件中读取(不想通过 file:read("*all") 将某个文件读入内存)。
问题与此帖子非常相似: 使用 Lua 提取 UTF-8 字符串的第一个字母
点赞
用户1442917
你需要读取字符,以便要匹配的字符串始终有四个或更多字符(这将允许您应用所引用答案的逻辑)。如果匹配并删除UTF-8字符后长度为len,那么您就需要从文件中读取4-len个字符。
ZeroBrane Studio在将字符打印到输出面板时,会将无效的UTF-8字符替换为[SYN]字符(正如您在屏幕截图中所看到的)。这篇博客文章描述了在ZeroBrane Studio中检测无效UTF-8字符(在Lua中)以及它们的处理的逻辑。
2015-04-24 20:48:53
用户90511
在 UTF-8 编码中,一个字符占用的字节数是由该字符的第一个字节决定的,根据以下表格得出(摘自 RFC 3629):
字符数值范围 | UTF-8 字节序列
(十六进制) | (二进制)
-------------+---------------------------------------------
0000 0000-0000 007F | 0xxxxxxx
0000 0080-0000 07FF | 110xxxxx 10xxxxxx
0000 0800-0000 FFFF | 1110xxxx 10xxxxxx 10xxxxxx
0001 0000-0010 FFFF | 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
如果第一个字节的最高位为“0”,则该字符只有一个字节。如果最高位是“110”,则该字符有 2 个字节,依此类推。
然后,您可以从文件中读取一个字节,并确定需要读取多少个连续字节才能得到完整的 UTF-8 字符:
function get_one_utf8_character(file)
local c1 = file:read(1)
if not c1 then return nil end
local ncont
if c1:match("[\000-\127]") then ncont = 0
elseif c1:match("[\192-\223]") then ncont = 1
elseif c1:match("[\224-\239]") then ncont = 2
elseif c1:match("[\240-\247]") then ncont = 3
else
return nil, "invalid leading byte"
end
local bytes = { c1 }
for i=1,ncont do
local ci = file:read(1)
if not (ci and ci:match("[\128-\191]")) then
return nil, "expected continuation byte"
end
bytes[#bytes+1] = ci
end
return table.concat(bytes)
end
2016-08-12 00:12:28
评论区的留言会收到邮件通知哦~
推荐文章
- 如何将两个不同的lua文件合成一个 东西有点长 大佬请耐心看完 我是小白研究几天了都没搞定
- 如何在roblox studio中1:1导入真实世界的地形?
- 求解,lua_resume的第二次调用继续执行协程问题。
- 【上海普陀区】内向猫网络招募【Skynet游戏框架Lua后端程序员】
- SF爱好求教:如何用lua实现游戏内调用数据库函数实现账号密码注册?
- Lua实现网站后台开发
- LUA错误显式返回,社区常见的规约是怎么样的
- lua5.3下载库失败
- 请问如何实现文本框内容和某个网页搜索框内容连接,并把网页输出来的结果反馈到另外一个文本框上
- lua lanes多线程使用
- 一个kv数据库
- openresty 有没有比较轻量的 docker 镜像
- 想问一下,有大佬用过luacurl吗
- 在Lua执行过程中使用Load函数出现问题
- 为什么 neovim 里没有显示一些特殊字符?
- Lua比较两个表的值(不考虑键的顺序)
- 有个lua简单的项目,外包,有意者加微信 liuheng600456详谈,最好在成都
- 如何在 Visual Studio 2022 中运行 Lua 代码?
- addEventListener 返回 nil Lua
- Lua中获取用户配置主目录的跨平台方法
函数
read_utf8_char(file)用于读取UTF-8编码中的一个字符,并返回该字符的字节码序列。function read_utf8_char(file) local c1 = file:read(1) local ctr, c = -1, math.max(c1:byte(), 128) repeat ctr = ctr + 1 c = (c - 128)*2 until c < 128 return c1..file:read(ctr) end