发明公开
- 专利标题: 一种基于HMM和降噪自编码器的中文对抗样本恢复方法
-
申请号: CN202311056107.3申请日: 2023-08-22
-
公开(公告)号: CN117033941A公开(公告)日: 2023-11-10
- 发明人: 王巍 , 韩子屹 , 蔡成涛 , 陆蓓婷 , 蒋文创 , 杨玉东 , 曲晓威 , 杨东梅 , 张海涛 , 王小芳 , 张万松 , 张越 , 庄园 , 苘大鹏 , 李伟 , 玄世昌 , 郭方方
- 申请人: 哈尔滨工程大学 , 哈尔滨工程大学三亚南海创新发展基地 , 价值链技术(深圳)有限公司
- 申请人地址: 黑龙江省哈尔滨市南岗区南通大街145号; ;
- 专利权人: 哈尔滨工程大学,哈尔滨工程大学三亚南海创新发展基地,价值链技术(深圳)有限公司
- 当前专利权人: 哈尔滨工程大学,哈尔滨工程大学三亚南海创新发展基地,价值链技术(深圳)有限公司
- 当前专利权人地址: 黑龙江省哈尔滨市南岗区南通大街145号; ;
- 代理机构: 北京东方盛凡知识产权代理有限公司
- 代理商 张国麒
- 主分类号: G06F18/20
- IPC分类号: G06F18/20 ; G06F18/15 ; G06F18/22 ; G06F40/58
摘要:
本发明公开一种基于HMM和降噪自编码器的中文对抗样本恢复方法,涉及对抗文本处理技术领域,包括,获取对抗文本,对对抗文本进行符号清洗;基于隐马尔可夫模型将所述对抗文本中的拼音串转换为汉字序列,并将汉字序列拼接为汉字串;通过降噪自编码器对所述对抗文本中的汉字字符及汉字串进行噪声去除,得到候选词序列;通过置信度‑相似度解码器对所述候选词序列进行解码,得到修正文本;通过双向机器翻译对所述修正文本进行处理,生成恢复汉字文本。本发明能够实现中文对抗样本的高效恢复。