在 Lua 中,如何找到一个 URL 的结尾?

我试图解析一个字符串,其中包含HTTP URL,例如,字符串如下:

str = "http://www.abc.com?id=123&key=456 and more text here"

我想知道http url链接在哪里结束,基本上我使用

string.find(str, "......")

我可以在其中放置什么模式,以便它考虑URL结束?

点赞
用户1646802
用户1646802

一个简单的匹配URL的模式可以是:

pattern = "https?://[%w-_%.%?%.:/%+=&]+"

string.find(str, pattern)

这只是一个起点,需要进一步完善以适用于所有情况 - 如何在其他语言的字符串中查找URL的问题是一个很好的提示(例如查找字符串中的URL的正则表达式)。 http://www.lua.org/pil/20.2.html也可能很有用。

另外请注意,URL中允许使用括号,例如:http://msdn.microsoft.com/en-us/library/aa752574(VS.85).aspx

2013-08-19 13:31:14
用户501459
用户501459

我想知道 http 的 url 链接在哪里结束

它在空格处结束,因此只需找出所有不是空格的内容:

str:find('%S+')

FYI,如果您只是想提取该字符串的该部分,可以使用 match

str:match('%S+')

编辑:根据下面的讨论提供澄清。

请注意,我们这里不是在尝试解析 URL。我们正在解析以空格分隔的字符串中的令牌。

我们必须假设 URL 不包含未编码的空格,因为否则 URL 可以是以下任何一种,我们无法区分它们:

http://www.abc.com?id=123&key=456
http://www.abc.com?id=123&key=456 and
http://www.abc.com?id=123&key=456 and more
http://www.abc.com?id=123&key=456 and more text
http://www.abc.com?id=123&key=456 and more text here

同样,URL 存在于一个由空格限定单词的句子中,因此我们必须假设/要求 URL 不包含未编码的空格,这使得找到其结尾很容易。

2013-08-19 16:43:03