文档检索模型训练方法、检索方法及存储介质

发明授权

请登陆查看更多内容

专利标题： 文档检索模型训练方法、检索方法及存储介质
申请号： CN202211275087.4

申请日： 2022-10-18
公开(公告)号： CN115344672B

公开(公告)日： 2023-02-03
发明人: 刘明童 , 沈田浩 , 周明
申请人： 北京澜舟科技有限公司
申请人地址： 北京市海淀区海淀大街3号1幢10层1001
专利权人： 北京澜舟科技有限公司
当前专利权人： 北京澜舟科技有限公司
当前专利权人地址： 北京市海淀区海淀大街3号1幢10层1001
代理机构： 深圳市智享知识产权代理有限公司
代理商 冯彬彬
主分类号： G06F16/33
IPC分类号： G06F16/33 ; G06N20/00 ; G06F16/335

摘要：

本发明涉及自然语言处理技术领域，特别涉及一种文档检索模型训练方法、检索方法及存储介质，训练方法包括以下步骤：获取数据库和当前批次中的查询，在数据库中对应各查询分别检索获得样本，样本包括与各查询对应的正样本以及难负样本；对于其中一查询，以该批次中的除该查询对应的正样本之外的其余正样本以及难负样本作为批次内负样本；添加负样本缓存队列用于储存样本，对批次内负样本以及储存在负样本缓存队列中的样本进行过滤得到负样本；基于查询以及其对应的负样本以及正样本对文档检索模型进行训练；训练完成后，该批次训练用的负样本以及正样本储存于负样本缓存队列中。通过添加负样本缓存队列存储负样本以增加训练时的负样本数量。

公开/授权文献

CN115344672A 文档检索模型训练方法、检索方法及存储介质公开/授权日：2022-11-15

信息查询

中国专利公布公告

审查信息

Global Dossier

Espacenet

IPC分类:

G	物理
G06	计算；推算或计数
G06F	电数字数据处理（基于特定计算模型的计算机系统入G06N）
G06F16/00	信息检索；数据库结构；文件系统结构
G06F16/30	.•非结构文本数据（文档管理系统入G06F 16/93）
G06F16/33	..••查询