-
公开(公告)号:CN107704501B
公开(公告)日:2020-04-24
申请号:CN201710750221.4
申请日:2017-08-28
Applicant: 中国科学院信息工程研究所
IPC: G06F16/22 , G06F16/2455
Abstract: 本发明提供一种从数据库中识别同源二进制文件的方法和系统,所述数据库中包含复数个二进制的基础文件,所述方法包括:根据最小哈希算法,分别获得待识别文件的签名以及各基础文件的签名;对任意一个签名,根据分桶法对该签名进行分桶处理;根据倒排索引法和所有基础文件的分桶后的签名,获得与桶一一对应的字典,每个所述字典包含至少一个键值对;根据待识别文件的每个桶中的字符串,遍历对应的字典,根据匹配的键所对应的值,获得所述待识别文件的同源二进制文件。本发明采用最小哈希算法求取签名并采用局部敏感哈希算法进行分桶,能够显著地减少计算量,采用倒排索引的方法,对所有的签名建立索引表,提高识别同源二进制文件的速度。
-
公开(公告)号:CN108280197A
公开(公告)日:2018-07-13
申请号:CN201810082622.1
申请日:2018-01-29
Applicant: 中国科学院信息工程研究所 , 国家计算机网络与信息安全管理中心
Abstract: 本发明提供一种识别同源二进制文件的方法及系统,所述方法包括:S1,使用最小哈希算法分别获取待识别二进制文件和各原二进制文件的签名;S2,使用分桶法对各所述签名进行分桶,获取各所述签名划分到各桶的字符串;其中,位于同一桶中的各所述字符串具有相同的字符数;S3,根据各桶中所述原二进制文件的签名对应的字符串,使用倒排索引法获取与各桶一一对应的字典;S4,根据各桶中所述待识别二进制文件的签名对应的字符串,从各桶对应的字典中获取与所述待识别二进制文件同源的原二进制文件。本发明减少计算量,提高识别同源二进制文件的速度和精度,适用于各种同源二进制文件的识别。
-
公开(公告)号:CN108280197B
公开(公告)日:2020-09-11
申请号:CN201810082622.1
申请日:2018-01-29
Applicant: 中国科学院信息工程研究所 , 国家计算机网络与信息安全管理中心
Abstract: 本发明提供一种识别同源二进制文件的方法及系统,所述方法包括:S1,使用最小哈希算法分别获取待识别二进制文件和各原二进制文件的签名;S2,使用分桶法对各所述签名进行分桶,获取各所述签名划分到各桶的字符串;其中,位于同一桶中的各所述字符串具有相同的字符数;S3,根据各桶中所述原二进制文件的签名对应的字符串,使用倒排索引法获取与各桶一一对应的字典;S4,根据各桶中所述待识别二进制文件的签名对应的字符串,从各桶对应的字典中获取与所述待识别二进制文件同源的原二进制文件。本发明减少计算量,提高识别同源二进制文件的速度和精度,适用于各种同源二进制文件的识别。
-
公开(公告)号:CN107704501A
公开(公告)日:2018-02-16
申请号:CN201710750221.4
申请日:2017-08-28
Applicant: 中国科学院信息工程研究所
IPC: G06F17/30
Abstract: 本发明提供一种从数据库中识别同源二进制文件的方法和系统,所述数据库中包含复数个二进制的基础文件,所述方法包括:根据最小哈希算法,分别获得待识别文件的签名以及各基础文件的签名;对任意一个签名,根据分桶法对该签名进行分桶处理;根据倒排索引法和所有基础文件的分桶后的签名,获得与桶一一对应的字典,每个所述字典包含至少一个键值对;根据待识别文件的每个桶中的字符串,遍历对应的字典,根据匹配的键所对应的值,获得所述待识别文件的同源二进制文件。本发明采用最小哈希算法求取签名并采用局部敏感哈希算法进行分桶,能够显著地减少计算量,采用倒排索引的方法,对所有的签名建立索引表,提高识别同源二进制文件的速度。
-
-
-