Lua中的字符串排序

2014-4-14 14:36:22

收藏：0

阅读：87

评论：2

我正在阅读《Lua 编程（第 1 版）》（是的，我知道它有点过时），在节3.2（关于关系运算符）中，作者说：

例如，对于欧洲的 Latin-1 区域设置，我们有 "acai" < "açaí" < "acorde"。

我不明白。对我来说，"acai" < "açaí"没问题，但为什么是"açaí" < "acorde"？

据我所知（维基百科似乎已经确认），"c" < "ç"，难道我错了？

用户1009479

在《PiL》的第三版中，这个语句已被修改为：

例如，在葡萄牙拉丁语-1语境下，我们有 "acai"<"aÃ§aÃ"<"acorde"。

因此，需要相应地将语境设置为葡萄牙拉丁语-1：

print("acai" < "aÃ§aÃ")
print("aÃ§aÃ" < "acorde")

print(os.setlocale("pt_PT"))

print("acai" < "aÃ§aÃ")
print("aÃ§aÃ" < "acorde")

在 ideone 上，结果为：

true
false
pt_PT.iso88591
false
true

但是，"acai" 和 "aÃ§aÃ" 的顺序似乎与书中不同了。

2014-04-14 14:35:55

用户2226988

你参考了一个编码页，它将码点映射到字符。当然，码点是有限的非负整数集合，是可以明确排列的。但是，这并不是字符的本质。

字符有一种排序方式，它是一种部分排序：字符可能“相等”，但不相同。排序是一种用户价值观念，因地域（和时间）而异。

字符串更加复杂，因为一些字符集（例如Unicode）可以有组合字符。这允许“字符”被表示为一个字符或者由基本字符和组合字符组成的字符。例如，“Ã¤”和“aÂ¨”。由于它们表示同一个概念上的字符，所以它们应该被认为比“Ã¤”和“a”更“相等”。

在西班牙语中，“ch”、“rr”和“ll”曾经是字母表中的字母，并且单词按照这些字母的顺序排序；现在不再是了，但“Ã±”仍然是。

同样地，在过去，英语人士常常将以“Mc”和“Mac”开头的姓氏排在以“M”开头的其他姓氏之后。

软件库必须处理这些问题，因为这是用户想要的。值得庆幸的是，一些旧习俗已经不再使用。

因此，一个地域很可能有排序规则，如果“c”与“Ã§”具有相同的排序顺序但“i”在“Ã”之前，那么“acai” < "aÃ§aÃ" < "acorde"。虽然这种情况很奇怪，但通常需要我们的代码来允许它。

2014-04-26 22:48:31

评论区的留言会收到邮件通知哦~

作者:

用户1084647

技术支撑

统计信息