混合使用内存和磁盘的分布式向量索引与检索方法及系统

    公开(公告)号:CN118467544A

    公开(公告)日:2024-08-09

    申请号:CN202410614310.6

    申请日:2024-05-17

    IPC分类号: G06F16/22 G06F18/23213

    摘要: 本发明实施例公开了一种混合使用内存和磁盘的分布式向量索引与检索方法及系统,方法包括:集群节点独立构建各自的索引,集群节点中全体向量采用内存和磁盘两种存储介质保存,内存中保存向量簇的中心点,采用多层中心点邻居图的数据结构进行管理,磁盘中保存中心点所在簇的所有向量;构建索引采用增量的方式;向量索引的管理操作分解为异步执行的向量操作、簇操作和多层中心点邻居图操作;接收查询向量进行检索时,集群节点独自检索出各自节点中查询向量的近似k‑最近邻,再从各集群节点的近似k‑最近邻集合的并集中挑选出最近的k个向量作为检索结果。本发明采用集群节点独立构建索引和检索最近邻的机制,实现了高效可扩展的向量检索功能。

    适配异构计算架构的查询回答方法及计算机设备

    公开(公告)号:CN118113720A

    公开(公告)日:2024-05-31

    申请号:CN202410166035.6

    申请日:2024-02-06

    发明人: 杜剑峰 张世明

    摘要: 本申请提供适配异构计算架构的查询回答方法及计算机设备,方法包括:根据合取查询语句的各个原子构成初始节点集,并在该初始节点集包括至少两个初始节点时,计算每两个初始节点的合并代价,每次合并都选择合并代价最小的两个初始节点进行合并处理,直至该初始节点集中仅包括唯一一个节点,则输出该唯一节点的数据视图;上述流程中初始节点的合并操作均转换成基于向量排序和矩阵构造的数值运算过程,从而能应用异构编程模型编码调用合适的异构处理器,提升异构处理器在数据库查询回答中使用的灵活性。

    机器学习训练数据调度方法及设备

    公开(公告)号:CN118014098A

    公开(公告)日:2024-05-10

    申请号:CN202410155756.7

    申请日:2024-02-04

    发明人: 杜剑峰 张世明

    IPC分类号: G06N20/00 G06F16/16 G06F16/11

    摘要: 本申请提供机器学习训练数据调度方法及设备,其中方法包括:当目标机器学习算法启动训练时,获取目标机器学习算法对应的嫁接模块,并通过嫁接模块触发通用模块层启动;根据通用模块层中的有向无环图确定目标磁盘文件;根据目标磁盘文件到嫁接模块的所有有向路径中的适配模块构成机器学习训练模块子图;基于机器学习训练模块子图将目标磁盘文件里的原始训练数据转换为目标机器学习算法所需的数据。该技术方案可提高机器学习算法的训练数据转换效率。