八股文插件为何使用自定义编码? #1290
Closed
warm-ice0x00
started this conversation in
Ideas
八股文插件为何使用自定义编码?
#1290
Replies: 1 comment 2 replies
-
印象里是对UTF8做一个压缩,保留有效位。参考UTF8编码方法。另外还额外加了些运算避免压缩后出现0字节,这是底层的数据结构不允许的,0会被当作字符串结束标记。压缩能缩减语言模型数据占用的空间。 |
Beta Was this translation helpful? Give feedback.
2 replies
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
-
我注意到 librime-octagram 使用了 gram_encoding.cc 中定义的自定义字符编码。我只是好奇这是否有具体的原因,因为现在 UTF-8 Everywhere(UTF-8 遍地开花)被普遍认为是编程中的最佳实践。你们能分享一些对此的见解吗?
Beta Was this translation helpful? Give feedback.
All reactions