融合词簇约束的汉越跨语言词嵌入方法

    公开(公告)号:CN114595688B

    公开(公告)日:2023-03-10

    申请号:CN202210014277.4

    申请日:2022-01-06

    摘要: 本发明涉及融合词簇约束的汉越跨语言词嵌入方法。本发明首先对汉越单语语料进行预处理并用于训练汉越单语词嵌入;然后利用在线词典和开源词库构建汉越双语词典及词簇词典,并将词与词簇两种粒度的对齐信息融入映射矩阵的训练过程中;最后通过跨语言映射框架得到汉越共享词嵌入空间,使具有相同含义的汉语与越南语词嵌入在空间中彼此接近。本发明使用不同类型的关联关系抽取汉越双语词典中的词簇对齐信息,使映射矩阵学习到多粒度的映射关系,以提升映射矩阵在非标注词上的泛化性,改善汉越低资源场景下双语空间对齐效果不佳的问题。实验结果表明,该模型在汉越词典归纳任务@1和@5上的对齐准确率相比VecMap模型提升了2.2个百分点。

    基于上下文的汉越跨语言句嵌入方法

    公开(公告)号:CN114861631A

    公开(公告)日:2022-08-05

    申请号:CN202210544674.2

    申请日:2022-05-19

    摘要: 本发明涉及基于上下文的汉越跨语言句嵌入方法,属自然语言处理领域。本发明首先构建训练数据集;再利用mBERT模型获取训练数据集中对应的汉越上下文跨语言句嵌入,并基于孪生网络结构搭建线性微调层,对获取到的汉越上下文跨语言句嵌入进行重构,并以此构建对比损失用于反向优化微调层。本发明通过构建融合孪生网络结构的线性微调层对mBERT模型中获取到的汉越上下文跨语言句嵌入进行重构,有效缓解了mBERT模型中因汉越句级平行语料稀缺及语法差异较大导致的汉越跨语言句嵌入语义对齐效果不佳的问题。实验结果表明,本发明的准确度均取得了较大提升,提高汉越嵌入分布间的重合度,改善汉越低资源上下文跨语言句嵌入的语义对齐效果。

    基于上下文的汉越跨语言句嵌入方法

    公开(公告)号:CN114861631B

    公开(公告)日:2024-06-21

    申请号:CN202210544674.2

    申请日:2022-05-19

    摘要: 本发明涉及基于上下文的汉越跨语言句嵌入方法,属自然语言处理领域。本发明首先构建训练数据集;再利用mBERT模型获取训练数据集中对应的汉越上下文跨语言句嵌入,并基于孪生网络结构搭建线性微调层,对获取到的汉越上下文跨语言句嵌入进行重构,并以此构建对比损失用于反向优化微调层。本发明通过构建融合孪生网络结构的线性微调层对mBERT模型中获取到的汉越上下文跨语言句嵌入进行重构,有效缓解了mBERT模型中因汉越句级平行语料稀缺及语法差异较大导致的汉越跨语言句嵌入语义对齐效果不佳的问题。实验结果表明,本发明的准确度均取得了较大提升,提高汉越嵌入分布间的重合度,改善汉越低资源上下文跨语言句嵌入的语义对齐效果。

    融合词簇约束的汉越跨语言词嵌入方法

    公开(公告)号:CN114595688A

    公开(公告)日:2022-06-07

    申请号:CN202210014277.4

    申请日:2022-01-06

    摘要: 本发明涉及融合词簇约束的汉越跨语言词嵌入方法。本发明首先对汉越单语语料进行预处理并用于训练汉越单语词嵌入;然后利用在线词典和开源词库构建汉越双语词典及词簇词典,并将词与词簇两种粒度的对齐信息融入映射矩阵的训练过程中;最后通过跨语言映射框架得到汉越共享词嵌入空间,使具有相同含义的汉语与越南语词嵌入在空间中彼此接近。本发明使用不同类型的关联关系抽取汉越双语词典中的词簇对齐信息,使映射矩阵学习到多粒度的映射关系,以提升映射矩阵在非标注词上的泛化性,改善汉越低资源场景下双语空间对齐效果不佳的问题。实验结果表明,该模型在汉越词典归纳任务@1和@5上的对齐准确率相比VecMap模型提升了2.2个百分点。