一种问答对生成方法、装置、存储介质及电子设备

    公开(公告)号:CN119293193A

    公开(公告)日:2025-01-10

    申请号:CN202411812389.X

    申请日:2024-12-10

    Abstract: 本说明书公开了一种问答对生成方法、装置、存储介质及电子设备。在本说明书提供的问答对生成方法中,获取用于生成问答对的文本素材;将所述文本素材输入大语言模型,使所述大语言模型根据所述文本素材输出伪问答对;响应于接收到用户输入的真实问题,在各伪问答对中确定与所述真实问题匹配的目标伪问答对;将所述目标伪问答对嵌入所述大语言模型的提示模板,并将所述真实问题输入所述大语言模型,得到所述大语言模型输出的优化答案;将所述真实问题与所述优化答案确定为待定问答对,并对所述待定问答对进行质量评测;响应于所述待定问答对通过所述质量评测,将所述待定问答对确定为可用问答对。

    基于大语言模型的数据增强方法和装置

    公开(公告)号:CN118277645B

    公开(公告)日:2024-08-09

    申请号:CN202410710728.7

    申请日:2024-06-04

    Abstract: 本发明公开了一种基于大语言模型的数据增强方法和装置,方法包括以下步骤:获取领域种子实体,将种子实体在原始语料数据中进行实体筛查以得到对应种子实体的上下文片段数据;以种子实体和上下文片段数据为基础,通过大语言模型进行用于网页信息查询的检索增强生成,生成扩展后的检索语句;将检索语句输入搜索引擎进行网页信息查询,获得返回结果中的TopN网页,解析TopN网页得到检索数据集;将检索语句与检索数据集一并输入大语言模型进行摘要总结,输出得到总结后的增强语料数据。本发明能够高质量地对原始语料数据进行自动化补充和扩展,实现更加高效和准确的数据增强。

Patent Agency Ranking