一种基于话题影响力的微博话题溯源方法

    公开(公告)号:CN104133897A

    公开(公告)日:2014-11-05

    申请号:CN201410374437.1

    申请日:2014-08-01

    IPC分类号: G06F17/30

    CPC分类号: G06F17/2785 G06F17/30864

    摘要: 本发明属于话题溯源范畴语义社会网络中的数据挖掘领域,具体涉及一种基于话题影响力的微博话题溯源方法。本发明包括:根据信息检索领域的隐形语义查询扩展方法,对输入的话题词组tp进行语义扩展,得到与给定话题相关的前k个话题;确定微博网络中的用户关系及信息传播规律,确定话题影响力TIN;根据影响力计算公式,以1h为一个时间步计算话题的影响力,得到话题在传播过程中随着时间变化的影响力趋势,其影响力强度从话题初期的缓慢增长到急剧上升最后达到平稳状态,即话题成长为热点;推导话题溯源递推公式,并确定其溯源递推终止条件,输出引发话题的源头。本发明使话题溯源递推的终止条件更加准确,溯源更加准确有效。

    一种电子邮件网关类系统邮件账户维护方法

    公开(公告)号:CN101499981B

    公开(公告)日:2014-10-22

    申请号:CN200910071577.0

    申请日:2009-03-19

    IPC分类号: H04L12/58 H04L12/18

    摘要: 本发明提供的是一种电子邮件网关类系统邮件帐户维护的方法。使用POP3协议和SMTP协议探测邮件帐户信息,并将有效账户信息存储在动态散列表中,通过时间滑动窗口维护信息的有效性,这样当发现投递失败的邮件则将其从散列表中丢弃,对于新增加的用户在经过滑动窗口的等待时间以后在重新进行探测。在固定周期内,将散列结构存储到文件系统中,防止信息丢失,在系统意外重起时,可以直接从文件加载。本发明的有点在于:1)可以帮助邮件网关过滤掉大量账户不存在的邮件信息,降低了网关的负担,提高网关系统的利用率;2)支持在一个邮件网关中,同时管理多个邮件系统,减少了系统的部署成本。

    一种基于话题影响力的微博话题溯源方法

    公开(公告)号:CN104133897B

    公开(公告)日:2017-07-11

    申请号:CN201410374437.1

    申请日:2014-08-01

    IPC分类号: G06F17/30

    摘要: 本发明属于话题溯源范畴语义社会网络中的数据挖掘领域,具体涉及一种基于话题影响力的微博话题溯源方法。本发明包括:根据信息检索领域的隐形语义查询扩展方法,对输入的话题词组tp进行语义扩展,得到与给定话题相关的前k个话题;确定微博网络中的用户关系及信息传播规律,确定话题影响力TIN;根据影响力计算公式,以1h为一个时间步计算话题的影响力,得到话题在传播过程中随着时间变化的影响力趋势,其影响力强度从话题初期的缓慢增长到急剧上升最后达到平稳状态,即话题成长为热点;推导话题溯源递推公式,并确定其溯源递推终止条件,输出引发话题的源头。本发明使话题溯源递推的终止条件更加准确,溯源更加准确有效。

    一种长文本到短文本的迁移学习方法

    公开(公告)号:CN103324708A

    公开(公告)日:2013-09-25

    申请号:CN201310241428.0

    申请日:2013-06-18

    IPC分类号: G06F17/30

    摘要: 本发明涉及一种长文本到短文本的迁移学习方法,其特征在于:步骤1:根据目标领域短文本中提取的标签,通过搜索引擎获得源领域数据,提取源领域的种子特征集;步骤2:根据目标领域短文本的标签集和源领域的种子特征集,构建社交媒体无向图,从无向图中提取包含所有目标领域标签集和种子特征集节点的子图;步骤3:基于拉普拉斯特征映射算法,获得源领域数据新的特征表示;步骤:4:根据源领域数据新的特征表示,对源领域数据进行分类。

    一种基于潜在语义分析的迁移学习方法

    公开(公告)号:CN103176961A

    公开(公告)日:2013-06-26

    申请号:CN201310069560.8

    申请日:2013-03-05

    IPC分类号: G06F17/27

    摘要: 本发明的目的在于提供一种基于潜在语义分析的迁移学习方法,包括以下步骤:对训练数据做去停用词、词干化处理,分别计算源领域与目标领域词汇权重,得到词汇-文本矩阵M,对矩阵M进行奇异值分解,将M中词汇与文本映射到低维潜在语义空间,去除源领域中同义词噪音影响,调整矩阵M结构,从源领域中找出与目标领域文本关联度较大的词汇作为迁移词,再对矩阵M结构进行调整,分析调整后的矩阵M中目标领域词汇,得到目标领域数据新的特征表示,在训数据集中得到最终分类器,对测试数据集S进行分类。

    一种电子邮件网关类系统邮件账户维护方法

    公开(公告)号:CN101499981A

    公开(公告)日:2009-08-05

    申请号:CN200910071577.0

    申请日:2009-03-19

    IPC分类号: H04L12/58 H04L12/18

    摘要: 本发明提供的是一种电子邮件邮件网关类系统邮件账户维护的方法。使用POP3协议和SMTP协议探测邮件帐户信息,并将有效账户信息存储在动态散列表中,通过时间滑动窗口维护信息的有效性,这样当发现投递失败的邮件则将其从散列表中丢弃,对于新增加的用户在经过滑动窗口的等待时间以后在重新进行探测。在固定周期内,将散列结构存储到文件系统中,防止信息丢失,在系统意外重起时,可以直接从文件加载。本发明的有点在于:1)可以帮助邮件网关过滤掉大量账户不存在的邮件信息,降低了网关的负担,提高网关系统的利用率;2)支持在一个邮件网关中,同时管理多个邮件系统,减少了系统的部署成本。