-
公开(公告)号:CN110795469B
公开(公告)日:2022-02-22
申请号:CN201910963344.5
申请日:2019-10-11
Applicant: 安徽工业大学 , 马鞍山市卫生健康信息中心
IPC: G06F16/2458 , G06F16/22 , G06F16/2453
Abstract: 本发明公开了一种基于Spark的高维序列数据相似性查询方法及系统,包括数据预处理、索引构建和查询等处理步骤。本发明使用分布式集群Spark提高计算能力;通过利用局部敏感哈希(LSH)函数来构建索引解决了高维序列数据处理困难等问题;查询过程只在部分Worker节点中进行,大大降低了数据的处理量,并且通过碰撞计数机制,有效的减少了候选集的规模,加速相似性查找的速率。本发明可以对用户任意给出的一条高维序列数据对象,快速且准确的从大规模数据集中查找出大部分相似数据对象。
-
公开(公告)号:CN110795469A
公开(公告)日:2020-02-14
申请号:CN201910963344.5
申请日:2019-10-11
Applicant: 安徽工业大学 , 马鞍山市卫生健康信息中心
IPC: G06F16/2458 , G06F16/22 , G06F16/2453
Abstract: 本发明公开了一种基于Spark的高维序列数据相似性查询方法及系统,包括数据预处理、索引构建和查询等处理步骤。本发明使用分布式集群Spark提高计算能力;通过利用局部敏感哈希(LSH)函数来构建索引解决了高维序列数据处理困难等问题;查询过程只在部分Worker节点中进行,大大降低了数据的处理量,并且通过碰撞计数机制,有效的减少了候选集的规模,加速相似性查找的速率。本发明可以对用户任意给出的一条高维序列数据对象,快速且准确的从大规模数据集中查找出大部分相似数据对象。
-