一种互联网网站相似度分析方法、装置以及可读存储介质
摘要:
本发明公开了一种互联网网站相似度分析方法、装置以及可读存储介质,方法包括:从多个未分类的互联网网站中提取文本特征词;将各个未分类的互联网网站的文本特征词分别输入预先获取到的孪生网络编码工具,得到各个未分类的互联网网站的文本向量序列,其中:所述孪生网络编码工具是从训练好的孪生网络中的输入层至权值共享循环神经网络层进行迁移得到,且所述孪生网络的训练是基于从多个已分类的互联网网站中提取的文本特征词实现;将各个未分类的互联网网站的文本向量序列组成的矩阵进行降维处理得到低维弱相关矩阵;对低维弱相关矩阵进行聚类分析,根据聚类分析结果获取所述多个未分类的互联网网站的相似度情况,从而实现互联网网站相似度分析。
0/0