文本校对方法、装置、计算机可读存储介质及电子设备

    公开(公告)号:CN110929514B

    公开(公告)日:2023-06-27

    申请号:CN201911144534.0

    申请日:2019-11-20

    Abstract: 本公开涉及一种文本校对方法、装置、计算机可读存储介质及电子设备。方法包括:确定待校对文本中各句子的纠错信息,纠错信息包括错误词和其对应的至少一个纠错词;针对各错误词,分别确定错误词与其前、后词在预设语料库中的第一共现频次、第二共现频次;针对错误词对应的各纠错词,获取语义特征;至少根据第一共现频次、第二共现频次及语义特征,判定纠错词是否正确。判定纠错词的正确性,可提升文本校对准确率。对纠错词的正确性进行判定时,综合考虑了前后词的搭配及上下文语义特征,可保证纠错词的正确性判定的精度,从而进一步提升文本校对准确率。此外,使得校对工作智能化、自动化,减轻人工校对的压力,提升工作效率,降低人工成本。

    一种字词结合的文本自动校对方法

    公开(公告)号:CN110134950B

    公开(公告)日:2022-12-06

    申请号:CN201910349756.X

    申请日:2019-04-28

    Abstract: 本发明公开了一种字词结合的文本自动校对方法,首先分别采用如下两种查错方法进行查错:1)基于n‑gram语言模型的查错方法;2)基于lstm语言模型的查错方法;然后将两种方法的查错结果求交集,得到最终的查错结果。本发明方法基于词符嵌入(word embeddings)技术、双向lstm网络、CRF(Conditional Random Field,条件随机场)模型等实现对输入文本进行分词与词性标注,在此基础上基于n‑gram模型、双向lstm语言模型以及规则策略,实现文本中存在的错误查找。

    命名实体校对方法、装置、可读存储介质及电子设备

    公开(公告)号:CN110909535B

    公开(公告)日:2023-04-07

    申请号:CN201911244893.3

    申请日:2019-12-06

    Abstract: 本公开涉及一种命名实体校对方法、装置、可读存储介质及电子设备。方法包括:基于中文分词结果,从待识别文本中提取第一命名实体,所述第一命名实体包括第一人名和/或第一职务;基于预设的数据库,从所述待识别文本中提取第二命名实体,所述第二命名实体包括第二人名和/或第二职务,所述预设的数据库中包括预设的人名和/或职务;根据所述第二命名实体,对所述第一命名实体进行纠错处理。由于是基于预设的数据库提取的第二命名实体,所以,所提取的第二命名实体较为准确,进而基于该较为准确的第二命名实体辅助对第一命名识别进行纠错处理,可以提高对待识别文本中的第一命名实体校对的准确度。

Patent Agency Ranking