-
公开(公告)号:CN118444891A
公开(公告)日:2024-08-06
申请号:CN202410626500.X
申请日:2024-05-20
Applicant: 清华大学
IPC: G06F8/30 , G06N3/0455 , G06N3/08 , G06F16/33 , G06F8/41
Abstract: 本发明提供一种基于虚拟编译器数据增强的汇编代码搜索和性能优化方法,包括:获取源代码,将所述源代码通过编译器编译为汇编代码,构建编译数据集;基于所述源代码和汇编代码训练虚拟编译器;基于所述虚拟编译器虚拟生成的汇编代码和预训练的文本编码器生成的文本编码训练生成汇编代码搜索模型;通过所述汇编代码搜索模型进行基于自然语言的汇编代码搜索。本发明解决了现有二进制代码难以准确分析理解的问题。