-
公开(公告)号:CN111143400A
公开(公告)日:2020-05-12
申请号:CN201911366462.4
申请日:2019-12-26
Applicant: 长城计算机软件与系统有限公司
IPC: G06F16/242 , G06F40/30
Abstract: 本发明涉及一种全栈式检索的方法、系统、引擎及电子设备,首先基于ElasticSearch设计向量检索插件,然后利用向量检索插件在ElasticSearch中扩展出图像字段类型和语义字段类型,根据神经网络模型所训练出的图像网络模型提取多个图像的图像特征向量并存至图像字段,根据神经网络模型所训练出的语义网络模型提取文本数据的语义特征向量并存至语义字段,图像字段、语义字段和ElasticSearch所提供的原始检索字段,共同构成检索数据库结构,以创建检索数据库,当用户进行检索时,可设置不同的检索条件,通过向量检索插件在检索数据库中以布尔检索方式、图像检索方式和语义检索方式中的至少一种检索方式进行检索,实现了将布尔检索方式、图像检索方式和语义检索方式结合起来以支持海量数据的混合全栈检索。
-
公开(公告)号:CN111026922A
公开(公告)日:2020-04-17
申请号:CN201911369320.3
申请日:2019-12-26
Applicant: 长城计算机软件与系统有限公司
IPC: G06F16/901 , G06F16/903 , G06F16/51 , G06F16/58
Abstract: 本发明涉及一种分布式向量索引方法、系统、插件及电子设备,利用在预设配置中预存的LSH算法对各原始向量进行处理得到Hash值,将入库Hash值以Term形式存入ElasticSearch中的向量字段中,并将相应的各原始向量也存入向量字段,完成入库;当用户输入待检索字段值时,利用设定配置中的LSH算法将待检索字段值进行处理后生成待检索Hash值,然后通过BooleanQuery检索出待检索Hash值的相关Term,进而得到相关Term的原始向量,再根据相似度计算方法按照顺序返回结果,可按照预设配置将文字、图片等转为入库Hash值以及Term存入向量字段后完成入库,在用户进行检索文字、图片等时,也会将其转为待检索Hash值,根据待检索Hash值可精确的从向量字段中完成精确检索,实现混合检索。
-