-
-
公开(公告)号:CN101441662B
公开(公告)日:2010-12-22
申请号:CN200810227582.1
申请日:2008-11-28
Applicant: 北京交通大学
IPC: G06F17/30
Abstract: 本发明涉及一种基于网络拓扑的主题信息采集方法。它是从搜索引擎获取初始网页集,经净化、分词和去停止词后,表示成向量集合,使用向量空间模型计算文本相似性。利用网络结构,对抽取出的URL先进行链接分析,通过URL的目录层次过滤链接,再根据网络的无标度性,修正URL的权值,进行优先吸附选择。同时反馈不相关的主题区域,并通过URL与种子集合的距离设置不相关URL的缓冲区长度。对采集到的主题计算其热度,以此选择主题获取其新的回复。
-
公开(公告)号:CN101441662A
公开(公告)日:2009-05-27
申请号:CN200810227582.1
申请日:2008-11-28
Applicant: 北京交通大学
IPC: G06F17/30
Abstract: 本发明涉及一种基于网络拓扑的主题信息采集方法。它是从搜索引擎获取初始网页集,经净化、分词和去停止词后,表示成向量集合,使用向量空间模型计算文本相似性。利用网络结构,对抽取出的URL先进行链接分析,通过URL的目录层次过滤链接,再根据网络的无标度性,修正URL的权值,进行优先吸附选择。同时反馈不相关的主题区域,并通过URL与种子集合的距离设置不相关URL的缓冲区长度。对采集到的主题计算其热度,以此选择主题获取其新的回复。
-
公开(公告)号:CN101393566A
公开(公告)日:2009-03-25
申请号:CN200810226802.9
申请日:2008-11-17
Applicant: 北京交通大学
IPC: G06F17/30
Abstract: 本发明提供一种基于网络结构用户行为模式的信息跟踪与检测方法及系统。首先获取互联网论坛中所有的目标信息,将信息进一步进行抽取工作,获得有关帖子的标题、内容、用户名、发表时间等信息。然后用网络构建算法将抽取到的信息进行互联网论坛网络结构的重建,建立一个完整的图,并计算该图的相关性质。随后,使用适应度估计算法、活跃度估计算法以及热度估计算法进行相关的计算,得到互联网论坛中的热点话题。本发明考虑了互联网论坛的网络结构,考虑了互联网论坛中用户的重要性,能够迅速的判断互联网论坛中的敏感性和争议性热点话题,减小了计算量。
-
-
-