发明公开
- 专利标题: 一种构建语料库的方法及装置
-
申请号: CN202410768227.4申请日: 2024-06-13
-
公开(公告)号: CN118569272A公开(公告)日: 2024-08-30
- 发明人: 吴颖婷
- 申请人: 支付宝(杭州)信息技术有限公司
- 申请人地址: 浙江省杭州市西湖区西溪路556号8层B段801-11
- 专利权人: 支付宝(杭州)信息技术有限公司
- 当前专利权人: 支付宝(杭州)信息技术有限公司
- 当前专利权人地址: 浙江省杭州市西湖区西溪路556号8层B段801-11
- 代理机构: 北京亿腾知识产权代理事务所
- 代理商 陈霁; 周良玉
- 主分类号: G06F40/49
- IPC分类号: G06F40/49 ; G06F18/22 ; G06N3/0455 ; G06F16/38 ; G06N5/022
摘要:
本说明书实施例涉及一种构建语料库的方法及装置,所述方法包括:获取第一语料库,其中包含多个无标签语料,然后,获取目标语料及其对应的目标类别标签,将目标语料与第一语料库中的各个语料进行相似度匹配,得到相似度排名靠前的多个检索结果语料。接下来,根据目标语料、目标类别标签以及多个检索结果语料,确定提示文本;提示文本指示大语言模型以提示文本中的各个语料为示例,生成目标类别标签所指示的类别的语料。在得到提示文本后,将提示文本输入到大语言模型中,得到多个生成结果语料。最后,根据多个检索结果语料、多个生成结果语料以及目标类别标签,构建有标签的第二语料库。