平行语料的生成方法及装置和无监督同义转写方法及装置

    公开(公告)号:CN115809658A

    公开(公告)日:2023-03-17

    申请号:CN202211497311.4

    申请日:2022-11-25

    Applicant: 清华大学

    Abstract: 本发明实施例提供一种平行语料的生成方法及装置和无监督同义转写方法及装置,其中平行语料的生成方法包括:获取待转写语料和所述待转写语料的上下文;基于所述待转写语料获得关键词集合;将所述关键词集合和所述待转写语料的上下文输入至预训练语言模型,获得的所述预训练语言模型输出的至少一个候选同义转写语料;对每个所述候选同义转写语料进行评价,基于评价结果确定目标同义转写语料。无监督同义转写方法包括:获取待转写语句;将所述待转写语句输入至同义转写模型,获得所述同义转写模型输出的同义转写句;其中,所述同义转写模型是基于平行语料对训练得到的。本发明实施例能够获得优秀的同义转写句。

    一种开放信息抽取模型的训练方法和装置

    公开(公告)号:CN116226324A

    公开(公告)日:2023-06-06

    申请号:CN202211559799.9

    申请日:2022-12-06

    Applicant: 清华大学

    Abstract: 本发明提供一种开放信息抽取模型的训练方法和装置,包括:获取以自然语言语句为样本的目标数据集;生成所述目标数据集中每一条自然语言语句的转述句;对所述目标数据集中每一条自然语言语句的转述句进行结构化知识恢复,得到所述目标数据集中每一条自然语言语句对应的结构化知识;以所述目标数据集中所有自然语言语句对应的转述句和结构化知识构建第一数据集;利用所述第一数据集和所述目标数据集,采用降噪训练方式训练开放信息抽取模型。本发明基于转述生成和结构化知识恢复构建一个句法鲁棒的训练框架,使得开放信息抽取模型能够在句法分布充分且准确的数据集上进行训练,以适应真实世界场景。

Patent Agency Ranking