-
公开(公告)号:CN110413909A
公开(公告)日:2019-11-05
申请号:CN201910526064.8
申请日:2019-06-18
Applicant: 中国科学院信息工程研究所
IPC: G06F16/955
Abstract: 本发明实施例提供一种基于机器学习的大规模嵌入式设备在线固件智能识别方法,所述方法包括:获取待识别的嵌入式设备厂商的网站域内的所有URL;提取每个URL的多维特征,并将多维特征转化为数值特征,并利用词频-逆向文件频率TF-IDF算法获取每个URL的文本特征;将所有URL的数值特征输入至第一嵌入式设备固件URL识别模型中,获得第一嵌入式设备固件URL集合,将所有URL的文本特征输入至第二嵌入式设备固件URL识别模型中,获得第二嵌入式设备固件URL集合;取两个嵌入式设备固件URL集合的交集进行输出。本发明实施例可应用于大规模地嵌入式设备固件URL下载,URL识别难度小、爬取效率高、下载速度快。