-
公开(公告)号:CN118656371A
公开(公告)日:2024-09-17
申请号:CN202410811082.1
申请日:2024-06-21
申请人: 西安交通大学
IPC分类号: G06F16/22 , G06F16/2458
摘要: 本申请公开了一种用于确定数据集之间差异的方法、系统、装置、电子设备及计算机可读存储介质,应用于数据服务端,本申请利用截断几何分布条件的性质,使得数据集中的数据能够按照与哈希函数对应的概率分布被记录,从而通过使用预设的哈希函数确定数据集的梗概数据,在保持数据集完整性的同时,有效减少数据存储空间的需求生成梗概压缩数据,再通过对目标数据集的梗概压缩数据进行异或操作,快速获得目标数据集之间的梗概差数据;最终通过求解期望函数来确定数据集之间的差异值。在保证分析结果准确度的同时,有效降低内存占用,解决了大数据的数据集差异分析过程中,内存占用与分析结果准确度不能兼顾的问题。