一种基于信息同源特征的互联网中信息实体同源判断方法
摘要:
本发明公开了一种基于信息同源特征的互联网中信息实体同源判断方法,包括以下步骤:A:获取互联网上所传播的信息实体的特征集;B:对步骤A中得到的特征集进行预处理;C:获取多维关键特征构建信息实体的多维关键特征集;D:获取信息实体的经规则化处理后的多维关键特征集;E:得到信息实体的平行语料增强关键特征集;F:抽取信息实体的语义信息;G:通过LSH哈希函数计算出信息实体的标识符并得到信息实体的信息同源特征;H:对待判定是否同源的信息实体A和B进行判定。本发明能够基于信息同源特征进行信息实体的同源判断,有效地解决了开放互联网中的信息内容传播和演化追溯问题,实现了信息内容的可追溯。
0/0