发明授权
- 专利标题: 一种文本检索方法、系统、设备及存储介质
-
申请号: CN202111609947.9申请日: 2021-12-27
-
公开(公告)号: CN114003698B公开(公告)日: 2022-04-01
- 发明人: 郭湘 , 黄鹏 , 江岭
- 申请人: 成都晓多科技有限公司
- 申请人地址: 四川省成都市天府新区兴隆街道湖畔路西段123号
- 专利权人: 成都晓多科技有限公司
- 当前专利权人: 成都晓多科技有限公司
- 当前专利权人地址: 四川省成都市天府新区兴隆街道湖畔路西段123号
- 代理机构: 成都睿道专利代理事务所
- 代理商 薛波
- 主分类号: G06F16/33
- IPC分类号: G06F16/33 ; G06K9/62
摘要:
本发明提供了一种文本检索方法、系统、设备及存储介质,步骤如下:利用预训练语言模型作为编码器,通过编码器对一批标注过后的相似句对进行自注意力和掩码处理;对最终编码进行池化处理,根据交叉熵损失函数指导训练;通过数据增强为输入构造正样本,将及输入编码器,得到表示向量和;计算表示向量与批内其他向量的相似度,根据相似度对候选文本排序,通过最终损失函数指导网络参数的迭代训练;基于训练好的模型进行文本检索。本申请通过加入有标注样本的有监督训练,可增强模型的泛化能力;基于注意力掩码机制,模型本身会有相似度文本推理能力;基于对比学习,用无监督的方式使得模型具有文本检索的能力。
公开/授权文献
- CN114003698A 一种文本检索方法、系统、设备及存储介质 公开/授权日:2022-02-01