-
公开(公告)号:CN110362807A
公开(公告)日:2019-10-22
申请号:CN201810252275.2
申请日:2018-03-26
Applicant: 中国科学院信息工程研究所
Abstract: 本发明提供一种基于自编码器的变体词识别方法,其步骤包括:将与变体词有关的语料作为数据集,进行分词和向量化;从数据集中生成批量样本,输入到自编码器的各自编码单元中进行非监督的预训练,得到各自编码单元神经网络的神经元参数;从数据集中生成批量正样本和负样本,输入到基于上述各自编码单元神经网络的神经元参数的自编码器中进行监督训练,得到整个神经网络的各神经元参数;将文档中包含的某已知变体词及其上下文向量化,再输入到基于上述整个神经网络的各神经元参数的自编码器中,识别出与该已知变体词关联的候选词。本发明还提供一种基于自编码器的变体词识别系统。