-
公开(公告)号:CN104615687B
公开(公告)日:2018-05-22
申请号:CN201510033050.4
申请日:2015-01-22
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
Abstract: 本发明提供一种面向知识库更新的实体细粒度分类方法与系统。所述方法包括:从文本中识别出实体;将识别出的实体、知识库中与其相关的实体以及相关实体在知识库中的分类作为结点构建依赖图,其中依赖图中的边的权值表示该边连接的两个结点之间的相关程度;以及,通过在所述依赖图上执行重启动随机游走,得到识别出的实体所属的分类。本发明能够克服现有技术在实体上下文缺乏的情况下难以实现对该实体进行细粒度分类的缺陷,并且提高了实体细粒度分类的准确率。
-
公开(公告)号:CN103533048B
公开(公告)日:2018-01-26
申请号:CN201310475961.3
申请日:2013-10-12
Applicant: 中国科学院计算技术研究所
IPC: H04L29/08
Abstract: 本发明提供一种BT网络中热门种子文件获取方法,包括下列步骤:1)构造多个虚拟BT客户端,所述多个虚拟BT客户端的ID均匀分布在BT网络ID逻辑空间;2)各虚拟BT客户端监听BT网络中的get_peers消息,统计所收到的对应于每个infohash的get_peer消息的数目;3)定期统计所有虚拟BT客户端所接收到的对应于每个infohash的get_peer消息的数目,并根据get_peer消息的数目确定相应的infohash是否为热门infohash。本发明能够全面准确地获取整个BT网络范围内的热门种子文件。
-
公开(公告)号:CN107391577A
公开(公告)日:2017-11-24
申请号:CN201710469315.4
申请日:2017-06-20
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
Abstract: 本发明涉及一种基于表示向量的标签推荐方法和系统,其特征在于,包括:获取多个作品,根据每个作品对应的标签、关系及对象,构建多个包含作品和标签的二元组信息和包含作品、关系及对象的三元组信息,根据二元组信息和三元组信息生成训练数据集;通过对训练数据集进行表示学习,分别得到各个作品的作品表示向量和各类标签的标签表示向量;通过计算各个作品表示向量和各类标签表示向量之间的距离,从各类标签中筛选出各个作品的推荐标签。本发明在学习表示向量的过程中,本发明同时考虑作品标签对二元组信息和作品的三元组信息。通过融入更多信息,使得学到的表示向量能够更准确地反映作品和标签的语义,从而更好地支持标签推荐这一任务。
-
公开(公告)号:CN103823879B
公开(公告)日:2017-06-16
申请号:CN201410072608.5
申请日:2014-02-28
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
Abstract: 本发明提供一种面向在线百科的知识库自动更新的方法,该方法实时监控知识库的知识语料来源,根据知识语料更新时间和知识语料内容变化,获取新增的知识语料与内容改变的知识语料;从所获取的知识语料识别知识的变化,以及将基于所识别的知识的变化来更新知识库。该方法实时感知更新的知识,自动判断更新知识在知识库中所处的位置,以及将更新的知识,自动合并添加到知识库中,可避免知识库的滞后性并满足用户对知识库时新性的要求。
-
公开(公告)号:CN103823868B
公开(公告)日:2017-05-03
申请号:CN201410066711.9
申请日:2014-02-26
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
Abstract: 本发明提供一种面向在线百科的事件识别方法和事件关系抽取方法。所述事件识别方法包括:从在线百科的分类体系中得到事件类分类标签;所述事件类分类标签表示该分类标签下的词条与一个或多个事件有关。以及对于所述在线百科中的词条,根据其所有分类标签中属于所述事件类分类标签的分类标签所占比率,判断所述词条是否是事件类词条。本发明能够快速且准确地识别出事件类词条,并且能够在事件识别的基础上进行事件关系的抽取,适用于对事件进行预测和溯源。
-
公开(公告)号:CN103198149B
公开(公告)日:2017-02-08
申请号:CN201310142075.9
申请日:2013-04-23
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
Abstract: 本发明提供一种查询纠错方法和系统。所述方法包括:将查询语句转换为字符序列,判断字符序列的长度是否大于预定阈值δ;对长度大于δ的字符序列同时进行正向和反向查询纠错处理,直到重合处理的字符个数达到阈值M,得到正向和反向的候选语句项集合。所述方法还包括将正向的候选语句项集合中后M个字符与反向候选语句项集合中前M个字符相同的候选语句项进行拼接,拼接后的候选语句项构成纠错候选项集合。所述方法支持中、英文混杂的查询语句,并且可对长查询采用正反向并行的查询纠错处理,这种并行的处理方式在保证正确率的同时节省了查询纠错的处理时间。
-
公开(公告)号:CN105677640A
公开(公告)日:2016-06-15
申请号:CN201610011936.3
申请日:2016-01-08
Applicant: 中国科学院计算技术研究所
CPC classification number: G06F17/2765 , G06N5/022
Abstract: 本发明提供一种面向开放文本的领域概念抽取方法,包括:1)遍历开放文本集合,从每一篇开放文本中提取候选领域概念;对于每一候选领域概念,利用该候选领域概念的短语拆分结果、上下文信息和百科分类信息得到该候选领域概念所关联的词向量,将该词向量中的所有的词分别作为该候选领域概念所关联的领域标签;3)用步骤1)得出的所有候选领域概念构建候选领域概念集合A,用步骤2)得出的所有领域标签构建领域标签集合B;利用HITS算法进行迭代计算,得出各个候选领域概念的领域相关度;4)利用各个候选领域概念的所述领域相关度进行领域概念的判断。本发明能够提高准确率和召回率,能够更好地识别出那些重要的低频概念。
-
公开(公告)号:CN103279484B
公开(公告)日:2016-03-30
申请号:CN201310144152.4
申请日:2013-04-23
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
Abstract: 本发明提供一种面向微博客系统中未来意见领袖的创建方法及系统,方法包括:步骤1,初始化网络环境;步骤2,选择博弈发起方用户;步骤3,选择博弈接收方用户;步骤4,构建博弈收益矩阵;步骤5,计算是否存在纳什均衡点,如果存在则选择使双方用户收益和最大的纳什均衡点,根据纳什均衡点执行相应的关系动作和消息动作,如果不存在则选择执行使博弈发起方用户收益最大的关系动作或消息动作;步骤6,更新用户属性;步骤7,计算意见领袖特征值;步骤8,根据意见领袖特征值的变化趋势,获得成为意见领袖的用户特征组合,利用用户特征组合创建未来意见领袖。本发明在博弈过程中选择用户行为,对微博系统中网络拓扑结构生成与变化进行评估。
-
公开(公告)号:CN104636466A
公开(公告)日:2015-05-20
申请号:CN201510071993.6
申请日:2015-02-11
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
Abstract: 本发明提供一种面向开放网页的实体属性抽取方法和系统。其中,所述方法包括:提取开放网页的文本,从中获得目标实体的候选文本集合;以及,根据目标实体属性在训练文本集合中出现的频率,选择基于规则的方式或者基于统计的方式从所述候选文本集合中抽取目标实体属性的值。本发明能够提高开放网页实体属性抽取的准确率和召回率,并且不依赖于网页结构,能够适应开放网页类型的变化。
-
公开(公告)号:CN104615687A
公开(公告)日:2015-05-13
申请号:CN201510033050.4
申请日:2015-01-22
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
CPC classification number: G06F17/30734 , G06F17/30705
Abstract: 本发明提供一种面向知识库更新的实体细粒度分类方法与系统。所述方法包括:从文本中识别出实体;将识别出的实体、知识库中与其相关的实体以及相关实体在知识库中的分类作为结点构建依赖图,其中依赖图中的边的权值表示该边连接的两个结点之间的相关程度;以及,通过在所述依赖图上执行重启动随机游走,得到识别出的实体所属的分类。本发明能够克服现有技术在实体上下文缺乏的情况下难以实现对该实体进行细粒度分类的缺陷,并且提高了实体细粒度分类的准确率。
-
-
-
-
-
-
-
-
-