一种用于扫描笔的Trie树结构、创建方法、分词方法及系统

    公开(公告)号:CN118779498A

    公开(公告)日:2024-10-15

    申请号:CN202411274571.4

    申请日:2024-09-12

    摘要: 本发明提供的一种用于扫描笔的Trie树结构、创建方法、分词方法及系统,通过对Trie树的结构进行重新设计,每个Trie树的子结点仅仅占用14字节的空间,以此大幅缩减了Trie树所占用的整体空间,并且简化了AC自动机的运行逻辑,使得其可以快速匹配所需匹配的字符,当进行分词操作时,仅需要确定是否存在下一子结点,并且根据所求得的余数直接定位到目标节点,无需遍历整个Trie树或者是完整查找多个分枝,大大节省了匹配时间,提高分词效率。并且,通过本发明提供的Trie树结构以及改进的AC自动机,使得该Trie树可以以文件的形式保存,在此基础上,仍然可以以较快的速度实现分词,提高了小型嵌入式设备分词的效率和准确率。

    基于AC自动机算法的翻译纠错方法、电子设备及存储介质

    公开(公告)号:CN118798217A

    公开(公告)日:2024-10-18

    申请号:CN202411268252.2

    申请日:2024-09-11

    摘要: 本发明提出一种基于AC自动机算法的翻译纠错方法、电子设备及存储介质,其中终端设备预先构建翻译纠错表,翻译纠错表包括原始文本、错误翻译和正确翻译,根据原始文本和预设的生词表生成存储于终端设备的预设文件夹内的trie文件,基于AC自动机算法和trie文件对待翻译的扫描文本进行匹配,快速得到匹配结果,根据翻译纠错表和匹配结果对扫描文本所对应的错误翻译替换成正确翻译。能够解决现有的离线翻译笔由于CPU算力和内存限制的问题导致无法对扫描文本进行有效地翻译,通过AC自动机算法和构建好的trie文件实现快速及准确地匹配并对其进行纠错,能够避免错误翻译无法被匹配上。