八股文插件为何使用自定义编码？ #1290

warm-ice0x00 · 2023-05-08T01:23:01Z

warm-ice0x00
May 8, 2023

我注意到 librime-octagram 使用了 gram_encoding.cc 中定义的自定义字符编码。我只是好奇这是否有具体的原因，因为现在 UTF-8 Everywhere（UTF-8 遍地开花）被普遍认为是编程中的最佳实践。你们能分享一些对此的见解吗？

lotem · 2023-05-10T06:24:17Z

印象里是对UTF8做一个压缩，保留有效位。参考UTF8编码方法。另外还额外加了些运算避免压缩后出现0字节，这是底层的数据结构不允许的，0会被当作字符串结束标记。压缩能缩减语言模型数据占用的空间。

2 replies

至于计算过程是不是先还原成UTF32，再去除0字节。这我不确定，还得细看。

感谢回复。

我发现目前八股文插件的 Octagram::Query 函数有个小 bug：写入 debug 日志时没有使用 UTF-8，导致日志乱码。