一种基于HMM和降噪自编码器的中文对抗样本恢复方法
摘要:
本发明公开一种基于HMM和降噪自编码器的中文对抗样本恢复方法,涉及对抗文本处理技术领域,包括,获取对抗文本,对对抗文本进行符号清洗;基于隐马尔可夫模型将所述对抗文本中的拼音串转换为汉字序列,并将汉字序列拼接为汉字串;通过降噪自编码器对所述对抗文本中的汉字字符及汉字串进行噪声去除,得到候选词序列;通过置信度‑相似度解码器对所述候选词序列进行解码,得到修正文本;通过双向机器翻译对所述修正文本进行处理,生成恢复汉字文本。本发明能够实现中文对抗样本的高效恢复。
0/0