Lua中如何获取括号内和括号外的字符串?

我正在尝试创建一个字符串模式,可以匹配非空白字符和所有括号内部的字符。例如,如下序列:

local str = [[
    This [pattern] should [return both] non-space
    characters and [everything inside] brackets
]]

将会输出This[pattern]should[return both]non-space等等。我一直在尝试解决这个问题,已经找出了一个非常接近的解决方案,但无法解决问题。这是我的尝试:

local str = [[
    This [pattern] should [return both] non-space
    characters and [everything inside] brackets
]]

for s in string.gmatch(str, "%S+%[?.-%]?") do
    print(s)
end

问题在于括号内部应允许空格,而括号外部则不应允许。这会像这样输出:This[pattern]should[returnboth]non-space等。

请注意,[returnboth]是两个不同的捕获,而不是返回[return both]。我对字符串模式还比较陌生,所以我感觉有些选项可能忽略了。无论如何,如果有人有经验,我真的很感激一些见解。

点赞
用户234175
用户234175

为了解释一下 Egor 在评论中给出的解决方案,关键思想是区分在括号 [] 中的空格和外部的空格。这是通过以下步骤实现的:

  • 首先使用 gsub 对括号外的空格进行替换,用 \0 替换。
  • 然后使用 gmatch 在字符串上匹配非空字符。

由于空字符 \0 不太可能与输入文本中的合法字符冲突,因此它被用作哨兵。

这种方法的变化是替换括号_内部_的空格,然后匹配非空格字符:

for s in str:gsub("(%[.-%])",
                  function(x)
                    return x:gsub("%s+", "\0")
                  end)
            :gmatch "%S+"
do
  print( (s:gsub("%z+", " ")) )
end

请注意,在解析过程中创建了中间字符串。如果输入字符串很长,则临时中间字符串也很长。对于一次性匹配,这可能没问题。如果您正在处理更重型的解析,请查看 LPEG

例如,以下 lpeg.re 语法可以解析给定的输入文本:

local re = require 're'

local str =
[[
    This [pattern] should [return both] non-space
    characters and [everything inside brackets]
]]

local pat = re.compile
  [[
    match_all   <- %s* match_piece+ !.
    match_piece <- {word / bracket_word} %s*
    word        <- ([^]%s[])+
    bracket_word <- '[' (word %s*)+ ']'
  ]]

for _, each in ipairs{ pat:match(str) } do
  print(each)
  end

输出:

This

[pattern]

should

[return both]

non-space

characters

and

[everything inside brackets]

2017-01-30 11:25:37