-
公开(公告)号:CN103631949B
公开(公告)日:2016-01-27
申请号:CN201310674521.0
申请日:2013-12-11
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
Abstract: 本发明提供一种社交网络数据采集方法和系统,所述方法包括根据用户资料和用户过去一段时间的数据更新信息,将该用户归于预先设定的多个用户组中的一个,得到该用户组的数据更新分布向量。其中,每个用户组中用户的用户资料和数据更新信息相似,用户组的数据更新分布向量体现该用户组中所有用户在一个时间区间内所有时间片段的数据更新行为。所述方法还包括根据所述用户组的数据更新分布向量,制定该用户在一个时间区间内不同时间片段的数据采集策略。本发明可针对不同的用户制定不同的实时数据采集策略,提高了社交网络数据采集的实时性和效率。
-
公开(公告)号:CN103235812B
公开(公告)日:2015-04-01
申请号:CN201310146037.0
申请日:2013-04-24
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
Abstract: 本发明提供一种查询多意图识别方法和系统,所述方法包括:根据G-PLSI模型计算查询意图概率特征向量,其中,G-PLSI模型用于模拟摘要文本的产生过程、相同查询意图下搜索不同查询时的点击链接行为,以及相同查询意图下在同一session中搜索不同查询的行为,查询意图概率特征向量体现摘要文本信息以及不同查询在相同链接上的点击概率和在同一session中的共现概率。所述方法还包括:计算不同查询的查询意图概率特征向量之间的相似度并且根据该相似度进行查询聚类。本发明使用的查询意图概率特征向量对查询内容和用户点击行为进行结合利用,能够更准确地反映用户搜索意图。
-
公开(公告)号:CN104077417A
公开(公告)日:2014-10-01
申请号:CN201410342939.6
申请日:2014-07-18
Applicant: 中国科学院计算技术研究所
CPC classification number: G06F17/30675 , G06F17/30702 , G06Q50/01
Abstract: 本发明提供一种社交网络中的人物标签推荐方法和系统,所述方法包括:基于被推荐用户的社交对象发布的文本内容,将社交对象划分为在语义空间上相似的多个类簇;其中,每个社交对象发布的文本内容由该社交对象发布的多个短文本消息组成。所述方法还包括:对于所述多个类簇中的每个类簇,将该类簇中的社交对象所对应的标签进行冗余处理,得到与该类簇对应的标签集合以提供给被推荐用户。本发明解决了现有人物标签推荐技术中,标签推荐质量不高的问题,以及能使标签推荐的结果更具个性化并且更加多样化。
-
公开(公告)号:CN103618725A
公开(公告)日:2014-03-05
申请号:CN201310645762.2
申请日:2013-12-04
Applicant: 中国科学院计算技术研究所
IPC: H04L29/06
Abstract: 本发明提供一种KAD网络资源信息的获取方法及系统。该方法包括:在KAD网络的节点ID空间内选取n个均匀分布的节点ID,构造相应的n个模拟节点加入所述KAD网络,其中n为正整数。由所述模拟节点监听所述KAD网络,以及由所述模拟节点解析其他节点发来的资源信息存储请求消息并且获取资源信息。本发明在加快信息获取速度的同时,可以较全面地得到KAD网络中的资源信息。
-
公开(公告)号:CN103605708A
公开(公告)日:2014-02-26
申请号:CN201310556473.5
申请日:2013-11-11
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
CPC classification number: G06F17/30206 , G06F17/3089
Abstract: 本发明提供一种KAD网络中由关键词哈希值推测关键词的方法及系统。所述方法包括利用关键词哈希值在KAD网络中搜索相关资源文件,得到所述相关资源文件的文件名;以及对所述相关资源文件的文件名进行分词处理,得到候选关键词及其在所述相关资源文件的文件名中出现的次数。所述方法还包括根据候选关键词在所述相关资源文件的文件名中出现的次数推测关键词。本发明可以准确地得到KAD网络中关键词哈希值对应的关键词信息,便于监管KAD网络、提高网络安全。
-
公开(公告)号:CN103279483A
公开(公告)日:2013-09-04
申请号:CN201310143846.6
申请日:2013-04-23
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
Abstract: 本发明提供一种面向微博客的话题流行范围评估方法及系统,其中方法包括:S1,采集微博客平台的历史数据,提取多个话题及多个消息,进行合并操作获得多个合并消息,然后将发布或者转发同一个合并消息的用户构建一个社区,获得多个社区,基于多个社区的重合程度进行话题的归类,提取同一类别中话题的特征;S2,获取微博客平台的实时数据,提取新话题及多个新消息,进行合并操作获得多个新合并消息,将发布或者转发同一个新合并消息的用户构建一个新社区,获得多个新社区,基于多个新社区的重合程度进行新话题的归类,提取同一类别中新话题的新特征;S3,将所述特征与所述新特征进行匹配,获得目标话题,对所述目标话题的流行范围进行评估。
-
公开(公告)号:CN103269382A
公开(公告)日:2013-08-28
申请号:CN201310232849.7
申请日:2013-06-13
Applicant: 中国科学院计算技术研究所
IPC: H04L29/08
Abstract: 本发明提供一种BitTorrent和eMule下载文件的关联方法,包括下列步骤:1)建立eMule信息数据库,eMule信息数据库记录的信息包括已采集的ED2K链接、该ED2K链接所对应资源文件的数据大小和不同尺寸起始文件分片的SHA1值序列,所述不同尺寸起始文件分片的尺寸为2nKB,n的取值为从4到13的整数;2)对于当前的eMule网络中的ED2K链接,根据该ED2K链接所对应文件的文件大小和起始分片的SHA1哈希值在BitTorrent信息数据库中进行查找,将该目标种子文件与当前的ED2K链接相互关联。本发明能够避免BitTorrent和eMule两个P2P空间的资源文件被重复下载;能够有效利用BitTorrent和eMule两个P2P空间的资源来加快下载速度。
-
公开(公告)号:CN103268339A
公开(公告)日:2013-08-28
申请号:CN201310182978.X
申请日:2013-05-17
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提供一种微博消息中命名实体识别方法。该方法指定少量命名实体作为种子,从待处理的原始微博消息集合中自动标注一定数量的微博作为训练数据集,然后该训练数据集来训练命名实体识别器并利用训练好的命名实体识别器对微博消息中的命名实体进行识别。该方法只需指定少量已有的种子实体,便可自动标注高质量的训练集。对于微博消息这种更新速度较快的文本来说,显著缩减人工成本。而且采用迭代的方式逐步产生高质量的标注数据,每次选择最能体现真实微博数据中命名实体出现规律的前N个新命名实体补充到种子库,最终生成的标注数据能很好的覆盖整个微博数据集。
-
公开(公告)号:CN103177126A
公开(公告)日:2013-06-26
申请号:CN201310134933.5
申请日:2013-04-18
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
Abstract: 本发明提供一种用于搜索引擎的色情用户查询识别方法,该方法包括基于已标注的用户查询集合,训练用于识别色情用户查询的分类模型,以及利用该训练好的分类模型判断待识别的用户查询是否为色请用户查询。其中,用于训练所述分类模型的用户查询特征包括用户查询的命名实体和实体上下文主题特征以及用户属于色情查询和非色情查询的概率。该方法不需要基于搜索引擎的查询结果来识别色情查询,而是通过利用用户查询中包含的命名实体特征和语言模型特征实现了快速、有效的色情查询识别。
-
公开(公告)号:CN103167029A
公开(公告)日:2013-06-19
申请号:CN201310070486.1
申请日:2013-03-06
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提供一种eMule网络上特定资源的发现方法,包括下列步骤:1)针对所关注的关键词,构造与其对应的KAD虚拟节点,所构造的KAD虚拟节点的ID值与相应关键词的MD4哈希值相同或接近,使得二者的异或距离远远小于KAD真实节点ID之间的通常异或距离;2)对KAD虚拟节点进行初始化,使eMule网络的其它节点感知到所构造的KAD虚拟节点;3)利用所述的KAD虚拟节点监听涉及相应关键词的特定资源的资源发布消息。本发明有助于更全面地获取eMule网络特定资源的信息;时效性强,能够快速发现新发布的特定资源;能够对新出现而又危害巨大的特定资源做出迅速反应;在监控的同时,能够保证eMule网络的正常运作。
-
-
-
-
-
-
-
-
-