Lua中的字符串排序

我正在阅读《Lua 编程(第 1 版)》(是的,我知道它有点过时),在节3.2(关于关系运算符)中,作者说:

例如,对于欧洲的 Latin-1 区域设置,我们有 "acai" < "açaí" < "acorde"。

我不明白。 对我来说,"acai" < "açaí"没问题,但为什么是"açaí" < "acorde"

据我所知(维基百科似乎已经确认),"c" < "ç",难道我错了?

点赞
用户1009479
用户1009479

在《PiL》的第三版中,这个语句已被修改为:

例如,在葡萄牙拉丁语-1语境下,我们有 "acai"<"açaí"<"acorde"

因此,需要相应地将语境设置为葡萄牙拉丁语-1:

print("acai" < "açaí")
print("açaí" < "acorde")

print(os.setlocale("pt_PT"))

print("acai" < "açaí")
print("açaí" < "acorde")

ideone 上,结果为:

true
false
pt_PT.iso88591
false
true

但是,"acai" 和 "açaí" 的顺序似乎与书中不同了。

2014-04-14 14:35:55
用户2226988
用户2226988

你参考了一个编码页,它将码点映射到字符。当然,码点是有限的非负整数集合,是可以明确排列的。但是,这并不是字符的本质。

字符有一种排序方式,它是一种部分排序:字符可能“相等”,但不相同。排序是一种用户价值观念,因地域(和时间)而异。

字符串更加复杂,因为一些字符集(例如Unicode)可以有组合字符。这允许“字符”被表示为一个字符或者由基本字符和组合字符组成的字符。例如,“ä”和“a¨”。由于它们表示同一个概念上的字符,所以它们应该被认为比“ä”和“a”更“相等”。

在西班牙语中,“ch”、“rr”和“ll”曾经是字母表中的字母,并且单词按照这些字母的顺序排序;现在不再是了,但“ñ”仍然是。

同样地,在过去,英语人士常常将以“Mc”和“Mac”开头的姓氏排在以“M”开头的其他姓氏之后。

软件库必须处理这些问题,因为这是用户想要的。值得庆幸的是,一些旧习俗已经不再使用。


因此,一个地域很可能有排序规则,如果“c”与“ç”具有相同的排序顺序但“i”在“í”之前,那么“acai” < "açaí" < "acorde"。虽然这种情况很奇怪,但通常需要我们的代码来允许它。

2014-04-26 22:48:31