Lua中如何删除以特定字符串开头的字符串行?

如何在 Lua 中从以另一个字符串开头的字符串中删除行?例如,我想删除字符串 result 中所有以单词 <Table 开头的行。这是我到目前为止写的代码:

for line in result:gmatch"<Table [^\n]*" do line = "" end
点赞
用户1009479
用户1009479

string.gmatch 用于获取模式的所有出现。如果要替换特定模式,则需要使用 string.gsub

另一个问题是你的模式 <Table [^\n]* 将匹配所有包含单词 <Table 的行,而不仅仅是以它开头的行。

Lua 模式不支持行锚定,以下代码基本上可以实现:

local str = result:gsub("\n<Table [^\n]*", "")

但它会错过第一行。我的解决方案是使用第二次运行来测试第一行:

local str1 = result:gsub("\n<Table [^\n]*", "")
local str2 = str1:gsub("^<Table [^\n]*\n", "")
2013-10-06 10:51:06
用户441830
用户441830

LPEG 库非常适合这种任务。只需编写一个函数来创建自定义行剥除器:

local mk_striplines
do
  local lpeg      = require "lpeg"
  local P         = lpeg.P
  local Cs        = lpeg.Cs
  local lpegmatch = lpeg.match

  local eol       = P"\n\r" + P"\r\n" + P"\n" + P"\t"
  local eof       = P(-1)
  local linerest  = (1 - eol)^1 * (eol + eof) + eol

  mk_striplines = function (pat)
    pat               = P (pat)
    local matchline   = pat * linerest
    local striplines  = Cs (((matchline / "") + linerest)^1)
    return function (str)
      return lpegmatch (striplines, str)
    end
  end
end

注意,mk_striplines() 的参数可以是字符串或模式。因此,结果非常灵活:mk_striplines (P"<Table" + P"</Table>") 将会创建一个剥除器,可以删除带有两个不同模式的行。mk_striplines (P"x" * P"y"^0) 将删除每一行开始的 x,然后跟随任意数量的 y,依此类推。

用法示例:

local linestripper = mk_striplines "foo"

local test = [[
foo lorem ipsum
bar baz
buzz
foo bar
xyzzy
]]

print (linestripper (test))
2013-10-06 11:14:55
用户68204
用户68204

其他答案提供了从字符串中实际剥离行的好方法,但没有解决你的代码为什么无法这样做的问题。

为了更清晰地重组,你写了:

for line in result:gmatch"<Table [^\n]*" do
    line = ""
end

第一部分是遍历 result 并提取以 <Table 开始并一直持续到下一个换行符前的所有文本的合理方法。gmatch 返回与每个调用匹配文本的 _副本_,而本地变量 line 保存这个副本以供 for 循环的主体使用。

由于匹配文本被复制到 line,对 line 所做的更改不能并不能修改存储在 result 中的实际文本。

这是 Lua 字符串的一个更基本的特性所导致的。Lua 中的所有字符串都是不可变的。一旦存储,它们就不能被更改。保存字符串的变量实际上保存了一个指向内部表的引用计数的不可变字符串,它只允许两个操作:内部化新字符串和删除没有剩余引用的内部化字符串。

因此,任何编辑存储在 result 中的字符串内容的方法都需要创建一个全新的字符串。string.gmatch 提供了对内容的迭代,但不能允许更改,而 string.gsub 提供了创建一个新的字符串,在其中所有与某个模式匹配的文本都被替换成新的内容。但是,即使 string.gsub 也不会改变不可变的源文本;它会创建一个新的不可变字符串,该字符串是旧字符串与所做的替换的副本。

使用 gsub 可以像这样简单:

result = result:gsub("<Table [^\n]*", "")

但这将暴露出模式本身的其他缺陷。首先,最明显的是,没有什么需要让模式仅匹配行的开头。其次,该模式不包括换行符,因此它将保留存在但为空的行。

所有这些都可以通过精心而聪明地使用模式库来细化。但这并不改变你是从 XML 文本开始处理,而不是使用 XML 意识工具处理。在这种情况下,任何基于模式匹配甚至正则表达式的方法都很可能以泪水结束。

2013-10-07 18:39:33
用户3561
用户3561
result = result:gsub('%f[^\n%z]<Table [^\n]*', '')

这个模式的开头 '%f[^\n%z] 是一个 _frontier pattern_,它将匹配从一个换行符或零字符到另一个字符的任何转换,并且对于 frontier patterns,前第一个字符算作零字符。换句话说,使用这个前缀使得该模式的其余部分可以在第一行或任何其他行的开头匹配。

参考资料:Lua 5.3 手册,第6.4.1节字符串模式(英文)

2015-11-09 00:54:59