基于模式匹配的汉语错别字识别方法及系统

    公开(公告)号:CN110991166B

    公开(公告)日:2021-07-30

    申请号:CN201911219533.8

    申请日:2019-12-03

    Abstract: 本发明公开了一种基于模式匹配的错别字识别方法,包括步骤:S1.根据语言的结构特征,定义错别字识别模式;S2.基于图存储结构建立错别字识别模式的索引;S3.通过错别字识别模式的索引对待查错文本进行自动查错和自动纠错。本发明方法通过定义错别字识别模式把语法限制和条件函数搭配融合进行错别字识别,能够有效针对违背局部或长距离语法约束条件的错误,具备很好的准确率;本发明系统通过程序实现错别字识别模式的定义和索引的建立以及利用错别字识别模式索引自动对待查错文本查错、纠错;基于图存储结构的灵活性建立索引结构实现对数据的广度优先搜索、深度优先搜索,利于构建完善的数据库(搭配库),继而提高错别字识别的准确度。

    一种基于搭配冲突的中文自动查错方法

    公开(公告)号:CN111079415B

    公开(公告)日:2021-03-26

    申请号:CN201911101660.8

    申请日:2019-11-12

    Abstract: 本发明实施例公开了一种基于搭配冲突的中文自动查错方法,所述方法包括:扫描待查错中文句子,根据搭配检测规则检查句子中的词语的搭配,得到检查结果,根据检查结果标记错误的词语,输出错误的词语,实现自动查错。所述方法还包括根据给定搭配知识库制定搭配检测规则,所述搭配检测规则包括相似词串识别规则、语境搭配规则、搭配冲突规则和搭配强度规则。本发明实施例所述基于搭配冲突的中文自动查错方法,对中文文本中的搭配错误识别率高,能有效识别利用局部的上下文没有办法识别的错词和需要远距离搭配特征才能判断的错词。

    一种字词重复错误的自动识别方法

    公开(公告)号:CN111709228A

    公开(公告)日:2020-09-25

    申请号:CN202010576591.2

    申请日:2020-06-22

    Abstract: 本发明公开了一种字词重复错误的自动识别方法,其包括如下步骤:对大规模训练语料分词后,统计得到训练语料中包括重复字词的二元组和三元组结构,及其出现的重复结合度、左上文邻接词信息熵及右下文邻接词信息熵的步骤;统计并收录汉语词典中的包含重复字的词并建立汉语词典重复字词库的步骤;基于汉语词典中的重复字词对待查错文本中出现的重复字词进行判断的步骤;基于统计得到的重复结合度、左上文邻接词信息熵及右下文邻接词信息熵,对待查错文本中出现的重复字词进行判断的步骤。本发明可快速判断识别出该重复字词是否为收录于词典中的重复字词,且能有效判断出是否为非词典但属于日常用语中的重复字词,判断识别快速、综合,实用性高。

    一种基于多特征的术语检索方法
    4.
    发明公开

    公开(公告)号:CN111597315A

    公开(公告)日:2020-08-28

    申请号:CN202010404933.2

    申请日:2020-05-13

    Abstract: 本发明公开了一种基于多特征的术语检索方法,该方法包括如下步骤:建立术语的表示模型结构的步骤;基于术语的表示模型,对术语名称进行相似度计算得到术语名称相似度的步骤;基于术语的表示模型,对术语的定义及相关特征进行相似度计算得到术语相关特征相似度的步骤;融合术语名称相似度及术语相关特征相似度,计算得到术语综合相似度的步骤;融合术语名称相似度、术语相关特征相似度及术语综合相似度,进行多特征检索得到相似术语的步骤;对检索得到的相似术语,结合术语综合相似度和术语所属领域信息进行排序的步骤。该方法能有效发现检索出相关术语,并对相似术语集合进行合理排序,满足多种术语检索的应用要求,利于术语的编写和规范使用。

    一种基于多特征的术语检索方法

    公开(公告)号:CN111597315B

    公开(公告)日:2024-06-04

    申请号:CN202010404933.2

    申请日:2020-05-13

    Abstract: 本发明公开了一种基于多特征的术语检索方法,该方法包括如下步骤:建立术语的表示模型结构的步骤;基于术语的表示模型,对术语名称进行相似度计算得到术语名称相似度的步骤;基于术语的表示模型,对术语的定义及相关特征进行相似度计算得到术语相关特征相似度的步骤;融合术语名称相似度及术语相关特征相似度,计算得到术语综合相似度的步骤;融合术语名称相似度、术语相关特征相似度及术语综合相似度,进行多特征检索得到相似术语的步骤;对检索得到的相似术语,结合术语综合相似度和术语所属领域信息进行排序的步骤。该方法能有效发现检索出相关术语,并对相似术语集合进行合理排序,满足多种术语检索的应用要求,利于术语的编写和规范使用。

    基于模式匹配的汉语错别字识别方法及系统

    公开(公告)号:CN110991166A

    公开(公告)日:2020-04-10

    申请号:CN201911219533.8

    申请日:2019-12-03

    Abstract: 本发明公开了一种基于模式匹配的错别字识别方法,包括步骤:S1.根据语言的结构特征,定义错别字识别模式;S2.基于图存储结构建立错别字识别模式的索引;S3.通过错别字识别模式的索引对待查错文本进行自动查错和自动纠错。本发明方法通过定义错别字识别模式把语法限制和条件函数搭配融合进行错别字识别,能够有效针对违背局部或长距离语法约束条件的错误,具备很好的准确率;本发明系统通过程序实现错别字识别模式的定义和索引的建立以及利用错别字识别模式索引自动对待查错文本查错、纠错;基于图存储结构的灵活性建立索引结构实现对数据的广度优先搜索、深度优先搜索,利于构建完善的数据库(搭配库),继而提高错别字识别的准确度。

    一种基于元组模型的术语管理方法

    公开(公告)号:CN113901180A

    公开(公告)日:2022-01-07

    申请号:CN202010576592.7

    申请日:2020-06-22

    Abstract: 本发明公开了一种基于元组模型的术语管理方法,其包括如下步骤:采用基于六元组的术语表示结构模型,对术语库中的术语逐一进行描述,以及基于术语库,建立术语定义信息中的词语到术语库中术语的第一映射索引结构的步骤;基于所述术语库,对新输入的术语信息进行检索和查重管理的步骤;基于所述术语库,对术语库中的术语及新增的术语进行协同管理的步骤。本发明一方面能有效的发现重复添加的术语,可有效解决术语录入和维护管理时存在的同名同义、不同名同义等不规范问题,另一方面可有效提升术语管理的效率,利于有效引用术语,并对术语的录入、编写和规范使用均提供有效地支撑。

    一种基于搭配冲突的中文自动查错方法

    公开(公告)号:CN111079415A

    公开(公告)日:2020-04-28

    申请号:CN201911101660.8

    申请日:2019-11-12

    Abstract: 本发明实施例公开了一种基于搭配冲突的中文自动查错方法,所述方法包括:扫描待查错中文句子,根据搭配检测规则检查句子中的词语的搭配,得到检查结果,根据检查结果标记错误的词语,输出错误的词语,实现自动查错。所述方法还包括根据给定搭配知识库制定搭配检测规则,所述搭配检测规则包括相似词串识别规则、语境搭配规则、搭配冲突规则和搭配强度规则。本发明实施例所述基于搭配冲突的中文自动查错方法,对中文文本中的搭配错误识别率高,能有效识别利用局部的上下文没有办法识别的错词和需要远距离搭配特征才能判断的错词。

    一种便携的文字识别扫描装置

    公开(公告)号:CN219936440U

    公开(公告)日:2023-10-31

    申请号:CN202321193918.3

    申请日:2023-05-17

    Abstract: 本实用新型公开了一种便携的文字识别扫描装置,包括扫描仪以及扫描笔,扫描仪的表面开设有凹槽,凹槽的内部放置有所述扫描笔,所述扫描笔底部的两侧均固定连接有弧形板,两个所述弧形板的内部设置有能够调节扫描距离及间距的控制组件,本实用新型属于文字识别扫描装置技术领域,本实用新型的目的在于解决现有技术中当字较小的时候,容易将多行文字一次性扫描的到扫描笔中的问题。达到的技术效果为:扫描摄像头底部的表面设置为斜边结构,电动伸缩杆控制扫描摄像头与弧形板底部之间的距离,进而让扫描摄像头控制两个移动板之间的距离,实现可以根据不小不同字的需要调节两个移动板之间的距离,避免间距过大扫描出多行文字的情况。

Patent Agency Ranking