-
公开(公告)号:CN103268339B
公开(公告)日:2016-06-01
申请号:CN201310182978.X
申请日:2013-05-17
申请人: 中国科学院计算技术研究所
摘要: 本发明提供一种微博消息中命名实体识别方法。该方法指定少量命名实体作为种子,从待处理的原始微博消息集合中自动标注一定数量的微博作为训练数据集,然后该训练数据集来训练命名实体识别器并利用训练好的命名实体识别器对微博消息中的命名实体进行识别。该方法只需指定少量已有的种子实体,便可自动标注高质量的训练集。对于微博消息这种更新速度较快的文本来说,显著缩减人工成本。而且采用迭代的方式逐步产生高质量的标注数据,每次选择最能体现真实微博数据中命名实体出现规律的前N个新命名实体补充到种子库,最终生成的标注数据能很好的覆盖整个微博数据集。
-
公开(公告)号:CN102609460A
公开(公告)日:2012-07-25
申请号:CN201210011178.7
申请日:2012-01-13
申请人: 中国科学院计算技术研究所
IPC分类号: G06F17/30
摘要: 本发明提供了一种基于用户分类的微博客数据采集方法。该方法首先初始化用户进行用户分类的数据;对获得的用户特征进行提取,取得可用于进行用户确定的特征数据;对提取出的数据进行过滤,多过滤后的数据根据特征之间的关系进行用户类型确定;对不同类别的用户采用不同的策略进行数据采集。该方法能够保证微博客数据采集的完整性和实时性,并能进行自适应的调整,以适应网络数据的变化。
-
公开(公告)号:CN102426610A
公开(公告)日:2012-04-25
申请号:CN201210010315.5
申请日:2012-01-13
申请人: 中国科学院计算技术研究所
IPC分类号: G06F17/30
摘要: 本发明提供一种微博排名方法,该方法首先计算消息的实时性权值和消息作者影响力权值,然后将二者的加权平均值作为该消息的排名值,并基于所计算的排名值对消息进行排序。该方法通过将微博作者权威性和消息实时性相结合来进行排名,提高了当前微博检索结果的精确度。而且计算微博作者的影响力计算的方法简单高效,还适用于对微博系统中得用户进行权威性或者影响力排名。
-
公开(公告)号:CN101841691A
公开(公告)日:2010-09-22
申请号:CN201010118279.5
申请日:2010-03-04
申请人: 中国科学院计算技术研究所
摘要: 本发明涉及一种流媒体数据交换方法与装置。该流媒体数据交换方法包括:步骤1,用户节点建立滑动窗口;步骤2,根据各邻居节点的数据分片广告信息,分配属于滑动窗口内的流媒体数据分片下载任务给一个或多个邻居节点;步骤3,当滑动窗口内的数据符合预设的条件,用户节点提交滑动窗口内的数据给流媒体数据解码与回放模块以进行播放;步骤4,滑动所述滑动窗口,重复执行步骤2-步骤3,直至流媒体数据下载完毕或用户节点终止流媒体的数据交换过程。本发明能够同时考虑到流媒体回放的稳定性、流媒体数据的回放时延、网络带宽资源的变化,为流媒体数据交换提供高效的数据分片下载调度方法,提高流媒体终端的回放质量,提高终端用户的满意度。
-
公开(公告)号:CN106844416A
公开(公告)日:2017-06-13
申请号:CN201611024146.5
申请日:2016-11-17
申请人: 中国科学院计算技术研究所
摘要: 本发明提供一种子话题挖掘方法,包括:1)对语料库中每篇文档的每个词语的主题值进行初始化;2)基于当前的各篇文档的各个词语的主题值,对于每篇文章中的每个词语,分别计算该词语来自各个子话题的概率以及计算该词语来自背景模块的概率,然后基于所计算出的概率,利用吉布斯采样算法重新为每篇文章中的每个词语分配主题值;其中,词语来自背景模块的概率根据预先统计的背景模块中的词语分布向量计算,所述背景模块中的词语分布向量在迭代过程中始终恒定;3)如果满足停止迭代的条件则根据当前的主题值信息得出LDA子话题,如果否,则回到步骤2)。本发明能够显著地提升针对专题文章集合的话题挖掘效果。
-
公开(公告)号:CN103631949B
公开(公告)日:2016-01-27
申请号:CN201310674521.0
申请日:2013-12-11
申请人: 中国科学院计算技术研究所
IPC分类号: G06F17/30
摘要: 本发明提供一种社交网络数据采集方法和系统,所述方法包括根据用户资料和用户过去一段时间的数据更新信息,将该用户归于预先设定的多个用户组中的一个,得到该用户组的数据更新分布向量。其中,每个用户组中用户的用户资料和数据更新信息相似,用户组的数据更新分布向量体现该用户组中所有用户在一个时间区间内所有时间片段的数据更新行为。所述方法还包括根据所述用户组的数据更新分布向量,制定该用户在一个时间区间内不同时间片段的数据采集策略。本发明可针对不同的用户制定不同的实时数据采集策略,提高了社交网络数据采集的实时性和效率。
-
公开(公告)号:CN103279483A
公开(公告)日:2013-09-04
申请号:CN201310143846.6
申请日:2013-04-23
申请人: 中国科学院计算技术研究所
IPC分类号: G06F17/30
摘要: 本发明提供一种面向微博客的话题流行范围评估方法及系统,其中方法包括:S1,采集微博客平台的历史数据,提取多个话题及多个消息,进行合并操作获得多个合并消息,然后将发布或者转发同一个合并消息的用户构建一个社区,获得多个社区,基于多个社区的重合程度进行话题的归类,提取同一类别中话题的特征;S2,获取微博客平台的实时数据,提取新话题及多个新消息,进行合并操作获得多个新合并消息,将发布或者转发同一个新合并消息的用户构建一个新社区,获得多个新社区,基于多个新社区的重合程度进行新话题的归类,提取同一类别中新话题的新特征;S3,将所述特征与所述新特征进行匹配,获得目标话题,对所述目标话题的流行范围进行评估。
-
公开(公告)号:CN103268339A
公开(公告)日:2013-08-28
申请号:CN201310182978.X
申请日:2013-05-17
申请人: 中国科学院计算技术研究所
摘要: 本发明提供一种微博消息中命名实体识别方法。该方法指定少量命名实体作为种子,从待处理的原始微博消息集合中自动标注一定数量的微博作为训练数据集,然后该训练数据集来训练命名实体识别器并利用训练好的命名实体识别器对微博消息中的命名实体进行识别。该方法只需指定少量已有的种子实体,便可自动标注高质量的训练集。对于微博消息这种更新速度较快的文本来说,显著缩减人工成本。而且采用迭代的方式逐步产生高质量的标注数据,每次选择最能体现真实微博数据中命名实体出现规律的前N个新命名实体补充到种子库,最终生成的标注数据能很好的覆盖整个微博数据集。
-
公开(公告)号:CN101841557B
公开(公告)日:2013-01-02
申请号:CN201010117154.0
申请日:2010-03-02
申请人: 中国科学院计算技术研究所
IPC分类号: H04N21/63 , H04N21/239 , H04L29/08 , H04L29/06
摘要: 本发明公开了一种基于十字链表的P2P流媒体下载方法和系统。所述方法,包括下列步骤:用户节点采用十字链表数据结构为每个邻居节点维护一个邻居节点下载任务队列,为每个数据分片维护一个数据分片下载任务队列,并将两个队列存储于用户节点本身;所述用户节点在拥有预备下载的数据分片的邻居节点集合中,选择所述用户节点本地所维护的下载任务十字链表中相应邻居节点的下载任务队列中所有任务的估计完成时间最小的邻居节点,将该下载任务交给该节点完成所述数据分片的下载任务,同时更新所述邻居节点下载任务队列和数据分片下载任务队列。
-
公开(公告)号:CN101697553B
公开(公告)日:2012-07-11
申请号:CN200910235678.7
申请日:2009-10-12
申请人: 中国科学院计算技术研究所
摘要: 本发明提供一种P2P环境下的数据传输方法,包括:对所要传输数据做分割后得到多组子数据流;在用户所登录的用户节点以及该用户节点的邻居节点上维护推送记录表,所述推送记录表用于记录所在节点所要推送以及所要接收的子数据流的信息;所述邻居节点按照随机的顺序将不同组的子数据流推送给所述用户节点,所述用户节点接收子数据流后结合所述推送记录表中的信息为所述邻居节点分配该邻居节点负责推送的子数据流;所述用户节点接收并保存所述邻居节点所推送的数据。本发明将推策略与拉策略相结合,能够尽可能地减少数据分片丢失情况的出现。本发明通过竞争机制实现子数据流的分配,能够减少冗余数据包的传输,提高整个系统的性能。
-
-
-
-
-
-
-
-
-