一种微博话题实时监测方法与装置

    公开(公告)号:CN107515889A

    公开(公告)日:2017-12-26

    申请号:CN201710531249.9

    申请日:2017-07-03

    CPC classification number: G06F17/30867 H04L51/16 H04L51/32

    Abstract: 本发明公开了一种微博话题实时监测方法与系统。该方法包括:获取预定时间段内预定话题对应的全部微博数据;统计全部微博数据中预定特征信息的数量;确定预定特征信息的数量在预定特征信息对应的预定高斯分布模型中所处的数量区间范围;根据预定特征信息的数量在其对应的预定高斯分布模型中所处的数量区间范围确定预定话题是否异常。本发明通过确定被监测话题在预定时间段内的预定特征信息的数量在其对应的预定高斯分布模型中所处的数量区间范围来确定被监测话题是否异常,考虑到用户使用微博的时间习惯以及历史同期数据分布情况,排除了周期性活动的干扰,确保异常判断结果的准确性和可靠性。

    一种网页主题的标注方法和装置

    公开(公告)号:CN104881458A

    公开(公告)日:2015-09-02

    申请号:CN201510266108.X

    申请日:2015-05-22

    CPC classification number: G06F16/374 G06F16/35

    Abstract: 本发明公开了一种网页主题的标注方法和装置。所述方法包括:基于网页的标题和正文,获得所述网页的主题特征向量;利用预先训练获得的分类器,对所述主题特征向量进行分类处理;判断是否存在所述主题特征向量所属的类型;若是,则将所述网页标注为所述主题特征向量所属的类型;若否,则将所述网页标记为待标注网页;进一步地,对多个待标注网页进行聚类处理;分析出每个聚类集合的类型;将待标注网页标注为其所属的聚类集合的类型。本发明采用有监督的分类方法和无监督的聚类方法级联的方式,自动的从网页中获取主题并标注网页,有效提高了网页主题标注的效率和准确性。

    一种微博团体的发现方法及装置

    公开(公告)号:CN104850647A

    公开(公告)日:2015-08-19

    申请号:CN201510284124.1

    申请日:2015-05-28

    CPC classification number: G06F16/951 G06Q50/01

    Abstract: 本发明公开了一种微博团体的发现方法及装置,其中,该方法包括:根据微博用户的元信息及微博内容,构建相互独立的特征信息词典;从预定时间段内用户的元信息和微博内容中分词,并基于特征信息词典和提取到的词语确定用户的兴趣特征向量;采用无监督学习方式从兴趣特征向量中确定用户团体信息。本发明实施例为不同种类的信息建立各自独立的特征信息词典,从用户一定时间段内更新的信息中分词,来与特征信息词典中的词语进行比对,进而确定用户的兴趣特征向量,再通过无监督学习方式来确定用户团体信息,通过此过程确定的用户团体信息是具有相同或相似兴趣爱好的团体,具有更准确的推广意义,传播力度大大提高,解决了现有问题。

Patent Agency Ranking