- 专利标题: 一种多层级长文本向量检索方法、装置和电子设备
-
申请号: CN202110421266.3申请日: 2021-04-20
-
公开(公告)号: CN112988952A公开(公告)日: 2021-06-18
- 发明人: 钱泓锦 , 刘占亮 , 窦志成 , 文继荣 , 曹岗
- 申请人: 北京智源人工智能研究院
- 申请人地址: 北京市海淀区中关村东路1号院8号楼三层B201D-1
- 专利权人: 北京智源人工智能研究院
- 当前专利权人: 北京智源人工智能研究院
- 当前专利权人地址: 北京市海淀区中关村东路1号院8号楼三层B201D-1
- 代理机构: 北京动力号知识产权代理有限公司
- 代理商 梁艳; 白婉露
- 主分类号: G06F16/31
- IPC分类号: G06F16/31 ; G06F16/33 ; G06F16/332 ; G06N3/04 ; G06N3/08
摘要:
本发明公开了一种多层级长文本向量检索方法、装置和电子设备。所述方法包括:将开放领域的长文本切分为文本片段;利用训练好的编码器将所述文本片段和搜索请求分别编码为稠密向量;利用文本片段和搜索请求的稠密向量,基于向量检索,查询得到与所述搜索请求相似的目标文本片段;其中,所述编码器是利用包括多层级文本片段的训练数据集训练得到的。通过考虑训练数据集中的文本片段与搜索请求的多层级相关性,使得得到的模型很容易在多个相关片段中选取到合适的片段,显著提高了召回效率。
公开/授权文献
- CN112988952B 一种多层级长文本向量检索方法、装置和电子设备 公开/授权日:2021-08-24