利用检索提升机器翻译质量自动评估的方法、介质及设备

    公开(公告)号:CN114896992A

    公开(公告)日:2022-08-12

    申请号:CN202210460184.4

    申请日:2022-04-28

    Applicant: 南京大学

    Abstract: 本发明公开了一种利用检索提升机器翻译质量自动评估的方法、介质及设备,方法包括:检索阶段:对于机器翻译质量评估句对,为所述机器翻译质量评估句对中的待评估词在数据库中检索出相关的平行句对;机器翻译质量评估阶段:将检索到的平行句对进行编码后,融入到机器翻译质量评估模型中。本发明能够直接有效地利用相关的平行句对,同时也缓解了机器翻译质量评估训练数据稀疏的问题;更好地解释了模型做出相关决策的原因;无需重新训练模型;避免了端到端模型在训练过程中遗忘训练数据的缺陷,提升了机器翻译质量评估模型的性能。

    一种缩减机器翻译数据库规模的方法、存储介质及电子设备

    公开(公告)号:CN114970570A

    公开(公告)日:2022-08-30

    申请号:CN202210566109.6

    申请日:2022-05-23

    Applicant: 南京大学

    Abstract: 本发明公开了一种缩减机器翻译数据库规模的方法、存储介质及电子设备,所述方法包括以下步骤:构建数据库,通过对数据库中各条目的掌握情况,将所有的条目进行分类;根据局部空间内条目的分布状况,为不同的条目确定知识边界值;分析各条目的种类和对应的知识边界值,将符合条件的条目添加到候选集合中;从候选集合里按照预先设定的比例随机丢弃一定条目,得到最终缩减后的数据库。本发明从通用领域NMT能力的角度出发,基于局部准确性丢弃数据库中的条目,在尽可能缩减数据库规模的同时,也保证了缩减后数据库的质量,可解释性更强;缩减后的数据库可以放入任何kNN‑MT框架中使用,可以对不同语言,不同领域的数据库进行规模缩减。

Patent Agency Ranking