- 专利标题: 一种互联网网站相似度分析方法、装置以及可读存储介质
-
申请号: CN202110445408.X申请日: 2021-04-23
-
公开(公告)号: CN113378090A公开(公告)日: 2021-09-10
- 发明人: 杨菁林 , 吴震 , 贺敏 , 唐积强 , 张露晨 , 董琳 , 缪亚男 , 张栋
- 申请人: 国家计算机网络与信息安全管理中心
- 申请人地址: 北京市朝阳区裕民路甲3号
- 专利权人: 国家计算机网络与信息安全管理中心
- 当前专利权人: 国家计算机网络与信息安全管理中心
- 当前专利权人地址: 北京市朝阳区裕民路甲3号
- 代理机构: 深圳市顺天达专利商标代理有限公司
- 代理商 郭伟刚
- 主分类号: G06F16/958
- IPC分类号: G06F16/958 ; G06F16/35 ; G06F40/284 ; G06N3/04 ; G06N3/08
摘要:
本发明公开了一种互联网网站相似度分析方法、装置以及可读存储介质,方法包括:从多个未分类的互联网网站中提取文本特征词;将各个未分类的互联网网站的文本特征词分别输入预先获取到的孪生网络编码工具,得到各个未分类的互联网网站的文本向量序列,其中:所述孪生网络编码工具是从训练好的孪生网络中的输入层至权值共享循环神经网络层进行迁移得到,且所述孪生网络的训练是基于从多个已分类的互联网网站中提取的文本特征词实现;将各个未分类的互联网网站的文本向量序列组成的矩阵进行降维处理得到低维弱相关矩阵;对低维弱相关矩阵进行聚类分析,根据聚类分析结果获取所述多个未分类的互联网网站的相似度情况,从而实现互联网网站相似度分析。
公开/授权文献
- CN113378090B 一种互联网网站相似度分析方法、装置以及可读存储介质 公开/授权日:2022-09-06