一种文本检索方法、系统、设备及存储介质
摘要:
本发明提供了一种文本检索方法、系统、设备及存储介质,步骤如下:利用预训练语言模型作为编码器,通过编码器对一批标注过后的相似句对进行自注意力和掩码处理;对最终编码进行池化处理,根据交叉熵损失函数指导训练;通过数据增强为输入构造正样本,将及输入编码器,得到表示向量和;计算表示向量与批内其他向量的相似度,根据相似度对候选文本排序,通过最终损失函数指导网络参数的迭代训练;基于训练好的模型进行文本检索。本申请通过加入有标注样本的有监督训练,可增强模型的泛化能力;基于注意力掩码机制,模型本身会有相似度文本推理能力;基于对比学习,用无监督的方式使得模型具有文本检索的能力。
公开/授权文献
0/0