一种基于热点事件的舆情知识图谱构建方法

    公开(公告)号:CN107633044A

    公开(公告)日:2018-01-26

    申请号:CN201710827984.4

    申请日:2017-09-14

    Abstract: 本发明公开了一种基于热点事件的舆情知识图谱构建方法,属于自然语言处理领域;首先实时获取微博文本,对每个微博文本进行处理,构建文本簇,计算每个文本簇所属的话题类别,按类别识别每个簇中的热点事件,统计每个热点事件的多维属性;识别参与热点事件讨论的重要人物和机构,并获取重要人物和机构的多维属性;最后构建事件、人物、机构的多维属性体系及关系类型,以事件、人物、机构为实体,事件、人物、机构之间的关系为关联,构建舆情知识图谱。本发明能够从多个维度对热点事件、人物、机构进行刻画,实现对热点事件、人物、机构的全方位解析;并根据实际需求,设置不同话题类别的权重,实现不同话题的舆情知识图谱构建。

    一种基于微博文本的人物性格刻画方法

    公开(公告)号:CN106202047A

    公开(公告)日:2016-12-07

    申请号:CN201610559542.1

    申请日:2016-07-15

    Abstract: 本发明公开了一种基于微博文本的人物性格刻画方法,属于数据挖掘领域;具体包括:首先,针对某个用户,对该用户某段时间内发的每条微博文本标注情绪标签,统计该用户每天冲动类以及抑郁类情绪的主导天数,从情绪特征角度对用户进行标记;然后,对该用户的所有微博文本进行关注话题分类,并选择该用户的关注话题;判断该用户的关注话题是否包括政治类和民生类,如果有,利用批判性词典对该用户进行语言特征刻画;否则,不做任何处理;最后、融合该用户的情绪特征和语言特征刻画该用户的性格,得到性格标签。优点在于:适用于对微博中人物性格特征刻画和分析,在舆情监控、人物属性刻画和信息传播扩散等领域有重要的应用价值。

    一种针对千万级规模新闻评论的观点挖掘方法

    公开(公告)号:CN104778209A

    公开(公告)日:2015-07-15

    申请号:CN201510111752.X

    申请日:2015-03-13

    Abstract: 本发明公开了一种针对千万级规模新闻评论的观点挖掘方法。具体步骤如下:1)、统计千万级规模新闻评论的数量;2)、判断该数量是否大于或等于阈值K,如果是不予处理,否则进入步骤三;3)、利用中文分词工具,对数量小于阈值K的新闻标题和评论进行分词,进行词性标注;4)、根据分词结果对新闻评论聚类,得到类别标签;5)、对新闻评论进行关键词对提取;6)、统计新闻评论的比例和混杂度;7)、根据关键词对筛选并提取代表性文本。本发明利用中文分词工具,考虑汉语语言的用法和搭配关系,结合新闻标题的作用,处理千万级规模的新闻评论,具有高效性、鲁棒性和易用性等优点。

    一种流式数据主题挖掘方法及其系统

    公开(公告)号:CN107992474A

    公开(公告)日:2018-05-04

    申请号:CN201711193285.5

    申请日:2017-11-24

    Abstract: 本发明涉及一种流式数据主题挖掘方法及其系统,该挖掘方法包括:对结构化数据进行筛选,得到主题数据,提取主题数据的主题实体和主题关键词,分别生成主题实体集合和主题关键词集合;提取候选新闻数据的新闻实体和新闻关键词,分别生成新闻实体集合和新闻关键词集合;分别计算得到实体相关度、关键词相关度和核心词相关度;计算候选新闻数据与主题数据的新闻主题相似度,并将新闻主题相似度大于预设阈值的候选新闻数据导入合格新闻数据集合。本发明能够从海量的实时流式数据中准确找到用户关注的特定主题的相关新闻,保证了该主题下新闻的实时性、准确性,以及该主题下新闻动态的变化过程,并对新闻内容进行了分析。

    一种流式数据主题挖掘方法及其系统

    公开(公告)号:CN107992474B

    公开(公告)日:2021-04-27

    申请号:CN201711193285.5

    申请日:2017-11-24

    Abstract: 本发明涉及一种流式数据主题挖掘方法及其系统,该挖掘方法包括:对结构化数据进行筛选,得到主题数据,提取主题数据的主题实体和主题关键词,分别生成主题实体集合和主题关键词集合;提取候选新闻数据的新闻实体和新闻关键词,分别生成新闻实体集合和新闻关键词集合;分别计算得到实体相关度、关键词相关度和核心词相关度;计算候选新闻数据与主题数据的新闻主题相似度,并将新闻主题相似度大于预设阈值的候选新闻数据导入合格新闻数据集合。本发明能够从海量的实时流式数据中准确找到用户关注的特定主题的相关新闻,保证了该主题下新闻的实时性、准确性,以及该主题下新闻动态的变化过程,并对新闻内容进行了分析。

    一种针对千万级规模新闻评论的观点挖掘方法

    公开(公告)号:CN104778209B

    公开(公告)日:2018-04-27

    申请号:CN201510111752.X

    申请日:2015-03-13

    Abstract: 本发明公开了一种针对千万级规模新闻评论的观点挖掘方法。具体步骤如下:1)、统计千万级规模新闻评论的数量;2)、判断该数量是否大于或等于阈值K,如果是不予处理,否则进入步骤三;3)、利用中文分词工具,对数量小于阈值K的新闻标题和评论进行分词,进行词性标注;4)、根据分词结果对新闻评论聚类,得到类别标签;5)、对新闻评论进行关键词对提取;6)、统计新闻评论的比例和混杂度;7)、根据关键词对筛选并提取代表性文本。本发明利用中文分词工具,考虑汉语语言的用法和搭配关系,结合新闻标题的作用,处理千万级规模的新闻评论,具有高效性、鲁棒性和易用性等优点。

    一种基于热点事件的舆情知识图谱构建方法

    公开(公告)号:CN107633044B

    公开(公告)日:2021-08-06

    申请号:CN201710827984.4

    申请日:2017-09-14

    Abstract: 本发明公开了一种基于热点事件的舆情知识图谱构建方法,属于自然语言处理领域;首先实时获取微博文本,对每个微博文本进行处理,构建文本簇,计算每个文本簇所属的话题类别,按类别识别每个簇中的热点事件,统计每个热点事件的多维属性;识别参与热点事件讨论的重要人物和机构,并获取重要人物和机构的多维属性;最后构建事件、人物、机构的多维属性体系及关系类型,以事件、人物、机构为实体,事件、人物、机构之间的关系为关联,构建舆情知识图谱。本发明能够从多个维度对热点事件、人物、机构进行刻画,实现对热点事件、人物、机构的全方位解析;并根据实际需求,设置不同话题类别的权重,实现不同话题的舆情知识图谱构建。

    基于层次判别树的多标签科研论文的分类方法

    公开(公告)号:CN110781297B

    公开(公告)日:2022-06-21

    申请号:CN201910881086.6

    申请日:2019-09-18

    Abstract: 本发明公开了一种基于层次判别树的多标签科研论文的分类方法,包括:步骤一、获取标签已知的论文和标签,提取标签的特征词语集合,构建二元判别模型;步骤二、将标签更新为二元判别模型,得层次判别树模型;步骤三、获取标签未知论文的文本表征,输入到层次判别树模型中根节点的所有二元判别模型中,计算具有该节点对应标签的概率,若大于阈值,则输出该根节点对应的标签;输入至该标签对应的节点的子节点的所有二元判别模型中,计算具有该节点代表标签的概率,若大于阈值,则输出该子节点对应的标签,逐级判断,直至叶节点;输出的所有标签即为该论文的标签。本发明具有充分挖掘论文的特征词语,快速、准确对论文进行层次分类的有益效果。

    一种实体关系自动识别方法及系统

    公开(公告)号:CN107944559B

    公开(公告)日:2021-04-27

    申请号:CN201711190865.9

    申请日:2017-11-24

    Abstract: 本发明涉及一种实体关系自动识别方法及系统,该方法包括:训练卷积神经网络得到实体关系识别模型;获取对应待确认实体组的相关语料库;将相关语料进行分词,并将分词得到的相关词语转化为相关词向量;将相关词向量按相关语料转化为矩阵作为实体关系识别模型的输入,得到相关关系种类和相关关系种类的相似度值,将相似度值高的相关关系种类作为待确认实体组的关系种类。本发明通过锻炼卷积神经网络作为实体关系识别模型,在出现新增实体时,计算得到一系列新增实体组的关系种类,并得出每一项关系种类的相似度值,通过具体的数值来确定相关关系种类的程度,提高得到的新增实体组之间关系种类的准确性。

Patent Agency Ranking