-
公开(公告)号:CN115952809A
公开(公告)日:2023-04-11
申请号:CN202211709287.6
申请日:2022-12-29
申请人: 鹏城实验室
IPC分类号: G06F40/58 , G06F40/242 , G06N3/08 , G06F16/36 , G06F40/216 , G06F40/289 , G06F18/22 , G06N3/04
摘要: 本发明公开了一种基于图网络的多语言翻译的词表初始化方法及装置,包括:根据每种语言对应的双语词典、词语及词元的分解构成关系,构建每种语言与核心语言之间的词表映射异质图;根据异质图神经网络和对比学习算法,在词表映射异质图上学习不同语言词表与核心语言词表之间的词元映射关系;将多语言机器翻译任务中的核心语言词表的词元利用核心语言BERT模型的词表进行初始化,并根据词元映射关系将其他语言映射到核心语言BERT模型的词表空间,完成多语言机器翻译任务中所有词元的初始化。本发明利用构建词元异质图的方式来完成不同语言词元的映射来初始化词元,提高了多语言机器翻译模型的翻译准确率,同时也加快了模型收敛速度。