基于容错后缀自动机的文本纠错方法及装置
摘要:
本发明公开了一种基于容错后缀自动机的文本纠错方法及装置,方法包括:根据预设词表构建前缀树;前缀树包括词尾节点;词尾节点记录文本以及文本长度;对待纠错文本基于预设编辑距离,生成对应的容错后缀自动机;基于前缀树进行搜索,确定与容错后缀自动机的交集;交集包括与前缀树的词尾节点匹配时容错后缀自动机的待纠错节点移动轨迹以及纠错长度;确定交集中纠错长度最小的待纠错节点作为纠错修改节点,根据前缀树对待纠错文本进行纠错修改。经预设编辑距离构建的容错后缀自动机和前缀树的交集,可以使预设词表在待纠错文本中的快速模糊匹配、查找定位错误的词语,计算速度快,纠错精准。
公开/授权文献
0/0