一种中文拼写纠错方法
    1.
    发明授权

    公开(公告)号:CN118278394B

    公开(公告)日:2024-08-09

    申请号:CN202410669266.9

    申请日:2024-05-28

    发明人: 王鹏鸣 孙胜

    摘要: 本发明提供一种中文拼写纠错方法,应用于中文拼写纠错系统,所述中文拼写纠错系统包括错误检测模型、错误校正模型。本发明采用将错误位置预测任务、音近错误预测任务和形近错误预测任务等与拼写错误检测密切相关的多任务联合训练的方式,使用错误检测模型去预测和输出拼写错误的位置及类型信息;本发明根据错误检测模型预测的错误类型信息,对错误句子的字符、字音或字形特征分别进行相应的屏蔽,采用选择性屏蔽的方式对拼写错误字符的部分无关信息即对于错误纠正没有帮助的字符特征进行掩码操作,从而迫使错误校正模型在编码过程中更加关注对错误纠正有用的字符特征,本发明能够实现有效的中文拼写纠错。

    一种中文拼写纠错方法
    2.
    发明公开

    公开(公告)号:CN118278394A

    公开(公告)日:2024-07-02

    申请号:CN202410669266.9

    申请日:2024-05-28

    发明人: 王鹏鸣 孙胜

    摘要: 本发明提供一种中文拼写纠错方法,应用于中文拼写纠错系统,所述中文拼写纠错系统包括错误检测模型、错误校正模型。本发明采用将错误位置预测任务、音近错误预测任务和形近错误预测任务等与拼写错误检测密切相关的多任务联合训练的方式,使用错误检测模型去预测和输出拼写错误的位置及类型信息;本发明根据错误检测模型预测的错误类型信息,对错误句子的字符、字音或字形特征分别进行相应的屏蔽,采用选择性屏蔽的方式对拼写错误字符的部分无关信息即对于错误纠正没有帮助的字符特征进行掩码操作,从而迫使错误校正模型在编码过程中更加关注对错误纠正有用的字符特征,本发明能够实现有效的中文拼写纠错。

    中文文本纠错方法、系统及可读存储介质

    公开(公告)号:CN115204151A

    公开(公告)日:2022-10-18

    申请号:CN202211118545.3

    申请日:2022-09-15

    发明人: 王鹏鸣 郝书乐

    摘要: 本发明公开了一种中文文本纠错方法、系统及可读存储介质,该方法首先对原始中文文本进行段落划分,得到目标段落,并以此形成句子向量,然后将句子向量输入至Bert模型中,利用Bert模型阅读理解能力强的特点,能够充分理解句子含义,从而解决错误类型多和远距离依赖的问题,在得到排序靠前的预设数量的预测字符编码,并生成预测字符集后,再结合预设的形似音似词典中生成候选字符集,最后从预测字符集与候选字符集取的交集中选择一个字对目标字进行替换,由于大多数错误都是由音似和形似导致的错误,因此,将预测字符集与候选字符集取的交集作为纠错的基础,能够有效提升纠错的准确率。

    一种基于自适应对话分割的对话摘要生成方法

    公开(公告)号:CN116541505A

    公开(公告)日:2023-08-04

    申请号:CN202310817723.X

    申请日:2023-07-05

    摘要: 本发明提供一种基于自适应对话分割的对话摘要生成方法,在训练阶段,首先从初始对话中提取出重要句子,通过对训练阶段摘要与标准摘要计算损失值,初步优化摘要生成模型的参数,再通过基于摘要匹配段落算法将初始对话划分为多个段落,再将段落输入到初步优化的摘要生成模型中,得到训练完成的摘要生成模型,在测试阶段,设计自适应对话聚类算法,计算文本相似度,通过文本相似度分值划分并聚类句子形成段落,再通过段落级注意力机制与句子级注意力机制进行信息交互,以获得段落交互语义特征,进而形成最终摘要,本发明采用自适应对话聚类算法将长对话划分成段落,使生成的摘要更加准确与流畅,最终提升了生成的摘要质量。

    一种中文错别字纠错处理方法、系统及存储介质

    公开(公告)号:CN115146636A

    公开(公告)日:2022-10-04

    申请号:CN202211079853.X

    申请日:2022-09-05

    发明人: 王鹏鸣 熊正坤

    摘要: 本发明提出一种中文错别字纠错处理方法、系统及存储介质,该方法将目标短句转化为n元组集合,采用kenlm语言模型依次计算n元组集合中各个元素的n元组信息熵,根据n元组集合中各个元素的n元组信息熵计算目标短句中各个文字的初始字级评分,对初始字级评分修正计算后识别出错别字,实现了对字粒度的文本进行分析纠错的效果,能够在中文错别字纠错时有效减小改变原句意思的概率。此外,本发明利用kenlm语言模型结合同音同形字典,能够直接将存在错别字的目标短句修改为句子信息熵中的最大者对应的句子,无需遍历操作,有效减少了纠错耗时。

    一种基于自适应对话分割的对话摘要生成方法

    公开(公告)号:CN116541505B

    公开(公告)日:2023-09-19

    申请号:CN202310817723.X

    申请日:2023-07-05

    摘要: 本发明提供一种基于自适应对话分割的对话摘要生成方法,在训练阶段,首先从初始对话中提取出重要句子,通过对训练阶段摘要与标准摘要计算损失值,初步优化摘要生成模型的参数,再通过基于摘要匹配段落算法将初始对话划分为多个段落,再将段落输入到初步优化的摘要生成模型中,得到训练完成的摘要生成模型,在测试阶段,设计自适应对话聚类算法,计算文本相似度,通过文本相似度分值划分并聚类句子形成段落,再通过段落级注意力机制与句子级注意力机制进行信息交互,以获得段落交互语义特征,进而形成最终摘要,本发明采用自适应对话聚类算法将长对话划分成段落,使生成的摘要更加准确与流畅,最终提升了生成的摘要质量。

    一种面向事件检索的多事件成分混合反馈方法与系统

    公开(公告)号:CN113946659A

    公开(公告)日:2022-01-18

    申请号:CN202111560808.1

    申请日:2021-12-20

    发明人: 王鹏鸣

    IPC分类号: G06F16/33

    摘要: 本发明提出一种面向事件检索的多事件成分混合反馈方法与系统,该方法包括如下步骤:步骤一,为已知事件集合中的每个已知事件构建已知事件语言模型:步骤二,查询隐藏目标事件;步骤三,根据查询确认得到的隐藏目标事件,对用户的初始查询模型进行更新以得到改进后的新查询模型;步骤四,根据改进后的新查询模型重新进行检索,通过新查询模型与文档模型之间的KL‑散度对应的分值来确定得到更准确的检索结果。本发明提出一种面向事件检索的多事件成分混合反馈方法,不仅能够获得更好的检索性能,而且对于伪反馈参数的设定具有良好的稳定性。

    一种PCB板散热器检测装置

    公开(公告)号:CN218847659U

    公开(公告)日:2023-04-11

    申请号:CN202223544322.1

    申请日:2022-12-29

    发明人: 王鹏鸣

    IPC分类号: G01M99/00

    摘要: 本实用新型涉及一种检测装置,尤其涉及一种PCB板散热器检测装置。本实用新型提供一种可精准检测且可检测多种型号的PCB板散热器检测装置。本实用新型提供了这样一种PCB板散热器检测装置,包括:挡板,外壳前部开有放料口,外壳前部的放料口上滑动式设置有两个挡板;握把,两个挡板前侧壁相靠近一端均设置有握把;顶块,外壳顶部设置有顶块;保护壳,外壳内侧壁底部开有圆孔,外壳内侧壁底部的圆孔上设置有保护壳;发热管,保护壳内侧壁底部设置有发热管。工作人员将需要进行功能检测的PCB板散热器放置在放置板上,然后发热管进行发热,导热板对其进行导热,工作人员可通过侦测板从显示器对PCB板散热器进行观察。