基于Spark的高维序列数据相似性查询方法及系统

    公开(公告)号:CN110795469B

    公开(公告)日:2022-02-22

    申请号:CN201910963344.5

    申请日:2019-10-11

    Abstract: 本发明公开了一种基于Spark的高维序列数据相似性查询方法及系统,包括数据预处理、索引构建和查询等处理步骤。本发明使用分布式集群Spark提高计算能力;通过利用局部敏感哈希(LSH)函数来构建索引解决了高维序列数据处理困难等问题;查询过程只在部分Worker节点中进行,大大降低了数据的处理量,并且通过碰撞计数机制,有效的减少了候选集的规模,加速相似性查找的速率。本发明可以对用户任意给出的一条高维序列数据对象,快速且准确的从大规模数据集中查找出大部分相似数据对象。

    基于Spark的高维序列数据相似性查询方法及系统

    公开(公告)号:CN110795469A

    公开(公告)日:2020-02-14

    申请号:CN201910963344.5

    申请日:2019-10-11

    Abstract: 本发明公开了一种基于Spark的高维序列数据相似性查询方法及系统,包括数据预处理、索引构建和查询等处理步骤。本发明使用分布式集群Spark提高计算能力;通过利用局部敏感哈希(LSH)函数来构建索引解决了高维序列数据处理困难等问题;查询过程只在部分Worker节点中进行,大大降低了数据的处理量,并且通过碰撞计数机制,有效的减少了候选集的规模,加速相似性查找的速率。本发明可以对用户任意给出的一条高维序列数据对象,快速且准确的从大规模数据集中查找出大部分相似数据对象。

Patent Agency Ranking