我该如何标准化日语,以便在Lua中进行禁用词检查?

有太多的半角、全角、片假名、平假名、汉字以及使用替代字符(例如用そ代替ん)的组合方式。 Python有一个叫做jcconv的包(https://pypi.python.org/pypi/jcconv/0.1.2),它可以帮助我做我需要做的事情。我想将字符串转换为标准形式,以便我可以检查我的受限词列表。Lua能够实现吗?

点赞
用户359415
用户359415

为了能够在平假名、片假名和半角片假名之间进行转换,你可以将相应的字母字符存储在不同的表中,并添加它们之间的映射(通过索引或关键字)。

这也是 jcconv 的实现方式,根据源代码推断(链接)。

例如,如果你想将平假名转换为片假名,可以这样做:

  • 设置一个表,每个元素定义为[平假名] = 片假名
  • 按字符迭代字符串,并进行替换(我找到了一个小型库,正好可以做到这一点:utf8.lua提供了一个接受映射表的替换函数)。
2013-09-02 13:27:29