Patent search ap:("安徽工业大学" OR "马鞍山市卫生健康信息中心") AND inv:"张震" Page 1

1.

发明授权
基于Spark的高维序列数据相似性查询方法及系统有权

公开(公告)号：CN110795469B

公开(公告)日：2022-02-22

申请号：CN201910963344.5

申请日：2019-10-11

Applicant: 安徽工业大学 , 马鞍山市卫生健康信息中心

Inventor： 郑啸 , 张震 , 陈启航 , 黄俊

IPC: G06F16/2458 , G06F16/22 , G06F16/2453

Abstract: 本发明公开了一种基于Spark的高维序列数据相似性查询方法及系统，包括数据预处理、索引构建和查询等处理步骤。本发明使用分布式集群Spark提高计算能力；通过利用局部敏感哈希(LSH)函数来构建索引解决了高维序列数据处理困难等问题；查询过程只在部分Worker节点中进行，大大降低了数据的处理量，并且通过碰撞计数机制，有效的减少了候选集的规模，加速相似性查找的速率。本发明可以对用户任意给出的一条高维序列数据对象，快速且准确的从大规模数据集中查找出大部分相似数据对象。

2.

发明公开
基于Spark的高维序列数据相似性查询方法及系统有权

公开(公告)号：CN110795469A

公开(公告)日：2020-02-14

申请号：CN201910963344.5

申请日：2019-10-11

Applicant: 安徽工业大学 , 马鞍山市卫生健康信息中心

Inventor： 郑啸 , 张震 , 陈启航 , 黄俊

IPC: G06F16/2458 , G06F16/22 , G06F16/2453

Abstract: 本发明公开了一种基于Spark的高维序列数据相似性查询方法及系统，包括数据预处理、索引构建和查询等处理步骤。本发明使用分布式集群Spark提高计算能力；通过利用局部敏感哈希(LSH)函数来构建索引解决了高维序列数据处理困难等问题；查询过程只在部分Worker节点中进行，大大降低了数据的处理量，并且通过碰撞计数机制，有效的减少了候选集的规模，加速相似性查找的速率。本发明可以对用户任意给出的一条高维序列数据对象，快速且准确的从大规模数据集中查找出大部分相似数据对象。

Patent Agency Ranking