发明公开
- 专利标题: 基于容错后缀自动机的文本纠错方法及装置
-
申请号: CN202410410143.3申请日: 2024-04-07
-
公开(公告)号: CN118194862A公开(公告)日: 2024-06-14
- 发明人: 余栋 , 李宏亮 , 靳国庆 , 李君 , 张勇东
- 申请人: 人民网股份有限公司
- 申请人地址: 北京市西城区新街口外大街28号B座234号
- 专利权人: 人民网股份有限公司
- 当前专利权人: 人民网股份有限公司
- 当前专利权人地址: 北京市西城区新街口外大街28号B座234号
- 代理机构: 北京市浩天知识产权代理事务所
- 代理商 赵娅
- 主分类号: G06F40/284
- IPC分类号: G06F40/284 ; G06F40/166 ; G06F40/205 ; G06F16/901
摘要:
本发明公开了一种基于容错后缀自动机的文本纠错方法及装置,方法包括:根据预设词表构建前缀树;前缀树包括词尾节点;词尾节点记录文本以及文本长度;对待纠错文本基于预设编辑距离,生成对应的容错后缀自动机;基于前缀树进行搜索,确定与容错后缀自动机的交集;交集包括与前缀树的词尾节点匹配时容错后缀自动机的待纠错节点移动轨迹以及纠错长度;确定交集中纠错长度最小的待纠错节点作为纠错修改节点,根据前缀树对待纠错文本进行纠错修改。经预设编辑距离构建的容错后缀自动机和前缀树的交集,可以使预设词表在待纠错文本中的快速模糊匹配、查找定位错误的词语,计算速度快,纠错精准。
公开/授权文献
- CN118194862B 基于容错后缀自动机的文本纠错方法及装置 公开/授权日:2024-09-06