一种网络话题热度预测方法

    公开(公告)号:CN106557552B

    公开(公告)日:2020-08-21

    申请号:CN201610958001.6

    申请日:2016-10-27

    摘要: 本发明公开了一种网络话题热度预测方法。它包括话题检测、热度预测建模、预测热度值计算三个步骤。话题检测部分负责从网络数据中获取与用户给定话题关键词相关的话题数据。预测建模部分按照用户设定的时间粒度大小统计话题检测结果中每个时间段内的话题热度值,并计算高斯过程模型关于话题热度统计时间点的协方差矩阵,构建基于高斯过程的预测模型。预测热度值计算部分针对用户给定的预测时间点,利用构建的高斯过程模型计算话题在给定时间点的热度值。本发明综合利用信息检索技术、分类技术进行话题检测,利用高斯过程模型来进行话题热度预测,提高了话题预测的实用性和有效性。

    一种网络话题热度预测方法

    公开(公告)号:CN106557552A

    公开(公告)日:2017-04-05

    申请号:CN201610958001.6

    申请日:2016-10-27

    IPC分类号: G06F17/30 G06Q50/00

    摘要: 本发明公开了一种网络话题热度预测方法。它包括话题检测、热度预测建模、预测热度值计算三个步骤。话题检测部分负责从网络数据中获取与用户给定话题关键词相关的话题数据。预测建模部分按照用户设定的时间粒度大小统计话题检测结果中每个时间段内的话题热度值,并计算高斯过程模型关于话题热度统计时间点的协方差矩阵,构建基于高斯过程的预测模型。预测热度值计算部分针对用户给定的预测时间点,利用构建的高斯过程模型计算话题在给定时间点的热度值。本发明综合利用信息检索技术、分类技术进行话题检测,利用高斯过程模型来进行话题热度预测,提高了话题预测的实用性和有效性。

    一种人物属性抽取训练数据集构建方法

    公开(公告)号:CN109033166B

    公开(公告)日:2022-01-07

    申请号:CN201810636331.2

    申请日:2018-06-20

    IPC分类号: G06F40/211

    摘要: 本发明公开了一种人物属性抽取训练数据集构建方法。首先,下载HTML页面中的文本数据内容,提取描述人物正文内容和属性信息的信息框数据,并进行编码存储和语句切分;然后,对切分后的语句,选取既包含人物名称、人物属性值内容的语句构建人物属性抽取语料数据集;最后,提取人物属性抽取语料数据集中的所有动词,基于信息熵的方法对所有动词进行排序,提取排名靠前的动词作为属性触发词,把人物属性抽取语料数据集中不包含属性触发词的语句删除掉,剩下的语句就组成了人物属性抽取训练数据集。本发明综合利用的网页数据采集、词性分析、词语信息熵计算等技术自动构建人物属性抽取训练数据集,对提高训练数据集构建的效率具有重要意义。

    一种基于网页文本的学者观点抽取方法

    公开(公告)号:CN110263319A

    公开(公告)日:2019-09-20

    申请号:CN201910216192.2

    申请日:2019-03-21

    IPC分类号: G06F17/27 G06F16/35 G06F16/34

    摘要: 本发明涉及一种基于网页文本的学者观点抽取方法,包括学者网页信息采集、文本数据预处理、观点抽取分析、观点摘要生成4个部分;学者信息抽取部分负责从互联网中获取给定学者相关的网页文本数据;文本数据预处理部分负责对原始网页文本数据进行清洗、语句分割、句法树分析、人名识别;观点抽取分析部分负责抽取出观点句,分析观点句的情感倾向和情感极性强度值。观点摘要生成部分负责将同一网页中的学者的所有观点语句进行总结,形成一个观点摘要段落。本发明综合利用了网络信息采集、数据挖掘、情感分析、自然语言处理等技术,从网络中自动提取出学者发表的观点及情感倾向,并生成观点摘要,有了解学者的社会活动和影响有重要意义。

    一种人物属性抽取训练数据集构建方法

    公开(公告)号:CN109033166A

    公开(公告)日:2018-12-18

    申请号:CN201810636331.2

    申请日:2018-06-20

    IPC分类号: G06F17/30

    摘要: 本发明公开了一种人物属性抽取训练数据集构建方法。首先,下载HTML页面中的文本数据内容,提取描述人物正文内容和属性信息的信息框数据,并进行编码存储和语句切分;然后,对切分后的语句,选取既包含人物名称、人物属性值内容的语句构建人物属性抽取语料数据集;最后,提取人物属性抽取语料数据集中的所有动词,基于信息熵的方法对所有动词进行排序,提取排名靠前的动词作为属性触发词,把人物属性抽取语料数据集中不包含属性触发词的语句删除掉,剩下的语句就组成了人物属性抽取训练数据集。本发明综合利用的网页数据采集、词性分析、词语信息熵计算等技术自动构建人物属性抽取训练数据集,对提高训练数据集构建的效率具有重要意义。

    一种新闻事件中人物观点抽取方法

    公开(公告)号:CN108984521A

    公开(公告)日:2018-12-11

    申请号:CN201810635449.3

    申请日:2018-06-20

    IPC分类号: G06F17/27 G06F17/30

    摘要: 本发明公开了一种新闻事件中人物观点抽取方法,包括观点抽取、人物观点数据库、观点检索3个部分;观点抽取部分负责对原始的新闻文本进行清理,并提取其中的观点要素包括观点持有者、观点评价对象、观点情感强度等;人物观点数据库负责存储人物、观点以及情感,以便检索和查询;观点检索部分负责响应用户的检索请求,对检索结果进行去重和合并,并返回排序的检索结果;本发明方法能够有效识别新闻中的人物观点并构建可供检索的人物观点数据库,提供了一种准确高效的人物观点抽取方法。

    一种网络评论产生式摘要方法

    公开(公告)号:CN105912644A

    公开(公告)日:2016-08-31

    申请号:CN201610217911.9

    申请日:2016-04-08

    IPC分类号: G06F17/30 G06F17/27

    CPC分类号: G06F16/345 G06F17/2775

    摘要: 本发明公开了一种网络评论产生式摘要方法。首先,基于标点符号对评论进行短语分割、分词并标记每个词语的词性,进而基于评论对象参数字典和句法模板过滤掉与评论对象无关的短语;然后,计算短语情感极性强度值,根据评论对象参数的所有短语的情感极性强度值对评论对象参数的重要性进行排序,选取最重要的一部分参数进行摘要生成;最后,针对选取的每个参数,选取一个对该参数最重要的一个评论短语,把选取的所有短语置入到设计好的摘要模板中以生成评论摘要。本发明综合利用了情感分析、词性分析等技术提取有效的用户评论信息,并根据设计好的模板生成摘要,对提高摘要的可读性和准确性有很大帮助。