- 专利标题: 汉字混淆集生成方法及装置和计算机可读存储介质
-
申请号: CN202111281258.X申请日: 2021-11-01
-
公开(公告)号: CN114091439B公开(公告)日: 2022-12-27
- 发明人: 苏萌 , 刘译璟 , 易显维 , 肖伟崎 , 高体伟 , 左云鹏
- 申请人: 北京百分点科技集团股份有限公司
- 申请人地址: 北京市海淀区建材中路27号14幢一层101层
- 专利权人: 北京百分点科技集团股份有限公司
- 当前专利权人: 北京百分点科技集团股份有限公司
- 当前专利权人地址: 北京市海淀区建材中路27号14幢一层101层
- 代理机构: 北京国昊天诚知识产权代理有限公司
- 代理商 王思超
- 主分类号: G06F40/263
- IPC分类号: G06F40/263 ; G06F40/284 ; G06F40/289 ; G06N20/00
摘要:
本申请公开的汉字混淆集生成方法例如包括:对汉字集合中的任意两个汉字进行分别组对得到多个汉字对;构造所述多个汉字对各自对应的混淆特征,其中所述混淆特征包括字形混淆特征和拼音混淆特征;采用预设机器学习模型并根据所述多个汉字对各自对应的所述字形混淆特征和所述拼音混淆特征对所述汉字对进行预测,得到所述多个汉字对的正例汉字混淆对;以及根据所述正例汉字混淆对生成汉字混淆集。将汉字对的字形混淆特征和拼音混淆特征统一在同一个生成方法里,通过机器学习有监督地学习上述混淆特征以预测输入汉字对的混淆情况,从而生成了一个准确率更高且更合理的混淆集。
公开/授权文献
- CN114091439A 汉字混淆集生成方法及装置和计算机可读存储介质 公开/授权日:2022-02-25