一种基于用户和微博主题的微博流行度预测方法及系统

    公开(公告)号:CN104933622A

    公开(公告)日:2015-09-23

    申请号:CN201510109475.9

    申请日:2015-03-12

    Abstract: 本发明涉及社交网络分析领域,特别涉及一种基于用户和微博主题的微博流行度预测方法及系统,该方法包括:获取预设时间段内的微博数据和用户数据,根据所述微博数据和所述用户数据,获取用户属性特征和微博主题特征,将所述用户属性特征进行归一化处理,以处理后的所述用户特征进行用户聚类,并根据聚类结果,获取用户的类别信息;根据所述微博主题特征和所述用户的类别信息,获取用户聚类在所述微博主题下的转发特征,并计算所述用户聚类在所述微博主题下的权重系数;根据所述微博主题特征、所述用户属性特征、所述权重系数,构建微博流行度预测模型,通过所述微博流行度预测模型对微博流行度进行预测。

    一种面向在线百科的实体属性抽取方法及系统

    公开(公告)号:CN103853823A

    公开(公告)日:2014-06-11

    申请号:CN201410065743.7

    申请日:2014-02-26

    CPC classification number: G06F17/30705

    Abstract: 本发明提供一种面向在线百科的实体属性抽取方法及系统,该方法包括:在待抽取的在线百科网页文本集合T中选择一个页面,抽取该页面的实体属性表达规则,得到当前规则集合。该方法还包括使用当前规则集合对所述待抽取的在线百科网页文本集合T进行实体属性抽取,并且根据抽取得到的实体属性抽取T的实体属性表达规则,用抽取得到的规则集合作为当前规则集合并重复这一过程k次,得到最终规则集合。使用所述最终规则集合对T进行实体属性抽取。本发明提供的实体属性抽取方法能够适应文本结构的变化,适用于各种在线百科,具有召回率高并且准确率高的效果。

    面向开放网络知识库的实体间关系推断方法及系统

    公开(公告)号:CN103824115A

    公开(公告)日:2014-05-28

    申请号:CN201410072412.6

    申请日:2014-02-28

    Abstract: 本发明提供一种面向开放网络知识库的实体间关系推断方法。该方法包括根据目标实体从知识库中找出所有与该目标实体之间有关系路径相连的所有实体作为候选实体集;根据待推断的目标关系从所述知识库中找出的所有存在所述目标关系的实体对;以及综合考虑所找出的各实体对间的关系路径信息以及各实体的属性信息来从所述候选实体集中选出可能与该目标实体存在所述目标关系的候选实体。该方法利用知识库中已有的实体关系和实体的属性自动对实体间的关系进行推理,有效改善了推断效果,实现了对知识库中关系的丰富与完善。

    伪装攻击检测中的模型训练方法和检测方法

    公开(公告)号:CN101702720B

    公开(公告)日:2012-09-05

    申请号:CN200910235890.3

    申请日:2009-10-28

    Abstract: 本发明提供一种伪装攻击检测中的模型训练方法,包括:由合法用户正常行为的训练数据中的shell命令短序列生成多个具有不同长度的shell命令短序列流;一个所述shell命令短序列流包括有具有某一特定长度的shell命令短序列,所述长度为所述shell命令短序列中所含shell命令符号的个数;在各个shell命令短序列流中计算所含shell命令短序列在所在短序列流中的支持度;将shell命令短序列的支持度大小与所在shell命令短序列流的最小支持度参数进行比较,去除各个shell命令短序列流中支持度小于最小支持度参数的shell命令短序列,从而得到用于描述合法用户正常行为的序列库。本发明具有适应性广、稳定性高、容错能力强、检测准确度较高的优点。

    一种文本维度压缩及尺度调整方法以及基于此的分类方法

    公开(公告)号:CN101464907A

    公开(公告)日:2009-06-24

    申请号:CN200910076589.2

    申请日:2009-01-09

    Abstract: 本发明提供一种文本维度压缩及尺度调整方法,包括下列步骤:1)用特征空间的特征向量表示文本xj;2)根据训练集中的样本x计算文本xj待投影的k个方向,其中k为文本xj所属语料的类别个数;3)将文本xj投影到该k个方向,表示为(xj,1N,…,xj,iN,…,xj,kN),其中1≤i≤k;4)根据训练集中的样本x计算每个类Ci在对应方向上投影的尺度相关统计量;5)根据所述(xj,1N,…,xj,iN,…,xj,kN)和所述尺度相关统计量,计算所述文本xj的新的表示(xj,1R,…,xj,iR,…,xj,kR)。根据本发明的文本维度压缩及尺度调整方法对文本空间进行处理,不仅降低了语料的维度,还使语料的分布更为合理,该方法的应用使文本分类的精度有效提高。

    一种面向在线百科的实体属性抽取方法及系统

    公开(公告)号:CN103853823B

    公开(公告)日:2017-01-18

    申请号:CN201410065743.7

    申请日:2014-02-26

    Abstract: 本发明提供一种面向在线百科的实体属性抽取方法及系统,该方法包括:在待抽取的在线百科网页文本集合T中选择一个页面,抽取该页面的实体属性表达规则,得到当前规则集合。该方法还包括使用当前规则集合对所述待抽取的在线百科网页文本集合T进行实体属性抽取,并且根据抽取得到的实体属性抽取T的实体属性表达规则,用抽取得到的规则集合作为当前规则集合并重复这一过程k次,得到最终规则集合。使用所述最终规则集合对T进行实体属性抽取。本发明提供的实体属性抽取方法能够适应文本结构的变化,适用于各种在线百科,具有召回率高并且准确率高的效果。

    一种微博流行趋势预测方法、装置及系统

    公开(公告)号:CN103258248B

    公开(公告)日:2016-12-07

    申请号:CN201310190225.3

    申请日:2013-05-21

    Abstract: 本发明提供一种微博流行趋势预测方法、装置及系统。所述方法包括:获得微博用户群体行为特征描述,所述微博用户群体行为特征描述表征用户发布微博的行为特征以及微博转发和评论中用户的行为特征。所述方法还包括:根据微博发布后第1至i-1个时间间隔的转发和评论数量,以及所述微博用户群体行为特征描述,计算所述微博在第i个时间间隔的转发和评论数量,其中i为大于1的正整数。本发明从时间维度出发,对微博用户的群体行为特征进行描述,在保证微博流行趋势预测的准确性以及效率的同时还可以在线实时进行预测。

    伪装攻击检测中的模型训练方法和检测方法

    公开(公告)号:CN101702720A

    公开(公告)日:2010-05-05

    申请号:CN200910235890.3

    申请日:2009-10-28

    Abstract: 本发明提供一种伪装攻击检测中的模型训练方法,包括:由合法用户正常行为的训练数据中的shell命令短序列生成多个具有不同长度的shell命令短序列流;一个所述shell命令短序列流包括有具有某一特定长度的shell命令短序列,所述长度为所述shell命令短序列中所含shell命令符号的个数;在各个shell命令短序列流中计算所含shell命令短序列在所在短序列流中的支持度;将shell命令短序列的支持度大小与所在shell命令短序列流的最小支持度参数进行比较,去除各个shell命令短序列流中支持度小于最小支持度参数的shell命令短序列,从而得到用于描述合法用户正常行为的序列库。本发明具有适应性广、稳定性高、容错能力强、检测准确度较高的优点。

    一种自动化的文摘实验装置与方法

    公开(公告)号:CN101388006A

    公开(公告)日:2009-03-18

    申请号:CN200810225031.1

    申请日:2008-10-24

    Abstract: 本发明涉及一种自动化的文摘实验装置与方法。该方法包括:步骤1,对文摘对象数据进行预处理得到文摘数据;步骤2,调用指定的文摘算法生成自动文摘;步骤3,使用预置的标准文摘和指定的评价工具对自动文摘进行评价,并返回文摘性能评价结果;步骤4,依据文摘性能评价结果优化指定的文摘算法的性能。本发明解决了文摘实验过程中文摘算法与评价工具的跨语言无缝衔接,实现了文摘算法参数训练过程与文摘实验的自动化,使技术人员可以自主配置文摘算法与参数取值配置文件,自动地进行算法性能的验证与参数组合的学习。

Patent Agency Ranking