-
公开(公告)号:CN109753596A
公开(公告)日:2019-05-14
申请号:CN201811637397.X
申请日:2018-12-29
Applicant: 中国科学院计算技术研究所
IPC: G06F16/95
Abstract: 本发明涉及一种网络数据采集的信源管理与配置方法,包括:感知网络数据的信息来源,将该信息来源拆分为传媒、信簇和信源;根据信簇类别对该信簇进行类别标注;根据信源类别对该信源进行类别标注;根据该信源的信源类别配置采集模板;根据该信源所包含的网络数据配置抽取模板;当验证该信源为潜在失效信源时,将该信源置为无效,或重新配置该采集模板和/或该抽取模板。本发明的信源管理与配置系统,通过“传媒-信簇-信源”三级结构的分层概念体系和多维度的信息来源分类体系对来自不同类型的信息来源进行合理高效组织,进而实现对大规模网络信息来源的精确感知并设计采集策略。
-
公开(公告)号:CN105404676B
公开(公告)日:2018-08-31
申请号:CN201510813149.6
申请日:2015-11-20
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
Abstract: 本发明公开了一种基于HFile的HBase二级索引更新方法及系统,该方法包括:解析步骤,监视HBase数据库刷新HFile文件的过程,当针对目标索引列产生了用户操作并生成有HFile文件时,解析该HFile文件并据以更新二级索引表;延迟步骤,在到达HFile文件的compaction操作的启动时间点时,判断该compaction操作所对应的HFile文件是否已经执行该解析该HFile文件的步骤,如果否,延迟该compaction操作的启动时间点,如果是,执行该compaction操作。本发明选择基于HBase文件存储中的HFile这一粒度层次来确定索引更新,不需要大幅度修改HBase源码,不需要维护多余的源表信息,在实现上与用户数据操作异步,不影响用户的时间体验,将索引数据更新维护与源表数据操作解耦。提高了HBase源表数据与二级索引表的同步程度。
-
公开(公告)号:CN104268148B
公开(公告)日:2018-02-06
申请号:CN201410429698.9
申请日:2014-08-27
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
Abstract: 本发明公开了一种基于时间串的论坛页面信息自动抽取方法及系统。该方法包括创建文件对象模型树,清除文件对象模型树中的无用标签和空标签,根据所述时间串,对所述文件对象模型树进行聚类,生成多个聚类集合,遍历所述聚类集合,获取最大簇,若所述最大簇只包含一个单独节点,则所述论坛页面为单楼页面,根据所述单独节点的时间串,获取所述单楼页面的发帖时间信息;遍历所述文件对象模型树,获取包含网页地址的新节点,通过关键字列表或正则式列表,对网页地址进行关键字查找或正则式查找;若网页地址包含关键字列表中的关键字或所述正则式列表中的正则式,则获取新节点及其子节点包含的文本信息,文本信息为所述单楼页面的用户名信息。
-
公开(公告)号:CN104615685B
公开(公告)日:2018-01-26
申请号:CN201510032875.4
申请日:2015-01-22
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
Abstract: 本发明提供一种面向网络话题的热度评价方法,包括:将网络话题的属性与规则中的属性进行对比;其中,所述规则是经过训练得到的,且用于指示网络话题的属性与热度值的对应关系;以及根据对比的结果得到该网络话题的热度值。本发明定义了数值评价体系,方便了用户理解话题的热度程度,有利于话题之间的热度比较;以及,采用粗糙集相关理论最优化训练集中的不一致性,学习出热度值与属性之间的关系,提供了高热度评价的效果,其中,将无限制的属性值离散化到有限的数值范围内,减小了计算的复杂度;此外,综合多种背景知识的用户的评价得到训练集,使得样本数据更为全面,尽可能地减轻了个体的偏见。
-
公开(公告)号:CN107566249A
公开(公告)日:2018-01-09
申请号:CN201710727462.7
申请日:2017-08-23
Applicant: 中国科学院计算技术研究所
Abstract: 一种训练用于预测社交网络用户转发消息的模型的方法,包括:1)获得所述社交网络中的历史数据,所述历史数据包括不同用户对同一条消息进行发布、转发的次序;2)根据所述历史数据,求解使得损失函数取值最小时各名用户的影响力和易感性;其中,所述影响力用于描述该名用户发布的消息被转发的概率,所述易感性用于描述该名用户受到发布消息的源发用户的影响而对所述消息进行转发的概率,所述损失函数是发布消息的源发用户的影响力、除所述源发用户之外的其他用户的易感性的函数;以及其中,所述用户的影响力和易感性作为所述用于预测社交网络用户转发消息的模型的参数。
-
公开(公告)号:CN106909622A
公开(公告)日:2017-06-30
申请号:CN201710041593.X
申请日:2017-01-20
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
CPC classification number: G06F16/288 , G06F16/2237
Abstract: 本发明提供了一种知识图谱的向量表示方法。该方法包括:将知识图谱中的实体对、关系和实体对之间的多步关系路径表示为初始低维向量;利用间隔可变的损失函数训练实体对、关系和实体对之间的多步关系路径的低维向量表示的模型。利用本发明学习到的模型进行关系推理能够提高不同的知识图谱中的推理的精确度。
-
公开(公告)号:CN106503256A
公开(公告)日:2017-03-15
申请号:CN201611005521.1
申请日:2016-11-11
Applicant: 中国科学院计算技术研究所
CPC classification number: G06F17/30867 , G06Q50/01
Abstract: 本发明提供一种基于社交网络文档的热点信息挖掘方法,包括下列步骤:1)根据词项在热度统计窗口内的权重相对于该词项在语料库中的基准权重的波动程度,得出该词项在热度统计窗口内的热度;2)基于各个词项的热度排序,得出当前热度统计窗口内的热点词项。本发明能够提高社交网络中挖掘候选词的准确率;能够获得更准确的表达社交网络热点事件的语义。
-
公开(公告)号:CN103853823B
公开(公告)日:2017-01-18
申请号:CN201410065743.7
申请日:2014-02-26
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
Abstract: 本发明提供一种面向在线百科的实体属性抽取方法及系统,该方法包括:在待抽取的在线百科网页文本集合T中选择一个页面,抽取该页面的实体属性表达规则,得到当前规则集合。该方法还包括使用当前规则集合对所述待抽取的在线百科网页文本集合T进行实体属性抽取,并且根据抽取得到的实体属性抽取T的实体属性表达规则,用抽取得到的规则集合作为当前规则集合并重复这一过程k次,得到最终规则集合。使用所述最终规则集合对T进行实体属性抽取。本发明提供的实体属性抽取方法能够适应文本结构的变化,适用于各种在线百科,具有召回率高并且准确率高的效果。
-
公开(公告)号:CN103258248B
公开(公告)日:2016-12-07
申请号:CN201310190225.3
申请日:2013-05-21
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提供一种微博流行趋势预测方法、装置及系统。所述方法包括:获得微博用户群体行为特征描述,所述微博用户群体行为特征描述表征用户发布微博的行为特征以及微博转发和评论中用户的行为特征。所述方法还包括:根据微博发布后第1至i-1个时间间隔的转发和评论数量,以及所述微博用户群体行为特征描述,计算所述微博在第i个时间间隔的转发和评论数量,其中i为大于1的正整数。本发明从时间维度出发,对微博用户的群体行为特征进行描述,在保证微博流行趋势预测的准确性以及效率的同时还可以在线实时进行预测。
-
公开(公告)号:CN106060577A
公开(公告)日:2016-10-26
申请号:CN201610516071.6
申请日:2016-07-01
Applicant: 中国科学院计算技术研究所
IPC: H04N21/232 , H04N21/4722 , H04N21/475 , H04N21/4788 , H04N21/482
CPC classification number: H04N21/4828 , H04N21/232 , H04N21/4722 , H04N21/475 , H04N21/4788
Abstract: 本发明提供一种基于二维码的影视剧互动的方法,包括:根据观众扫描的二维码内容,确定影视剧标识和节目播放者标识;根据所述影视剧标识,提供与所述影视剧相关的互动信息;根据所述节目播放者标识,提供所述节目播放者的服务入口。根据本发明的方法或设备,能够以二维码为索引标识,在影视剧作品、节目播放者和微博间进行索引,从而一次性向请求者提供与影视剧作品、节目播放者相关的多个微博标识、以及相应的影视海报、人员信息和图片。
-
-
-
-
-
-
-
-
-