-
公开(公告)号:CN109902145B
公开(公告)日:2021-04-20
申请号:CN201910048837.6
申请日:2019-01-18
Applicant: 中国科学院信息工程研究所
Abstract: 本发明涉及一种基于注意力机制的实体关系联合抽取方法和系统。该方法的步骤包括:将训练数据中标注的实体和关系的三元组,转化为每个词对应一个预定义类型的标签的形式;将训练数据的句子中的每个词映射成对应的词向量,输入基于注意力机制的神经网络模型,并通过反向传播算法进行训练,得到标签预测模型;将需进行实体关系抽取的句子输入训练完成的标签预测模型,预测出每个词对应的标签,根据标签和三元组中每个词的对应关系,得到句子中存在的实体关系三元组。该系统包括预处理模块、模型训练模块和结果处理模块。本发明通过更有效的利用句子中的关键信息,提升了关系实体联合抽取的性能,具有良好的实用性。
-
公开(公告)号:CN110008307A
公开(公告)日:2019-07-12
申请号:CN201910048233.1
申请日:2019-01-18
Applicant: 中国科学院信息工程研究所
Abstract: 本发明涉及一种基于规则和统计学习的变形实体识别方法和装置。该方法定义目标实体生成变形实体的规则,并且通过这些规则定义演绎生成算法,为每个目标实体生成大量的候选变形实体集合;利用目标实体和变形实体所在文本的上下文语义相似性,提出基于统计学习的方法来识别出上面候选变形实体集合中真正对应于目标实体的变形实体。本发明既可以找到尽可能多的变形实体,又通过识别模型保证了最终识别出的变形实体的准确性,具有良好的实用性。
-
公开(公告)号:CN109902223A
公开(公告)日:2019-06-18
申请号:CN201910032064.2
申请日:2019-01-14
Applicant: 中国科学院信息工程研究所
IPC: G06F16/9535 , G06F16/9536 , G06F16/35 , G06K9/62
Abstract: 本发明提出了一种基于多模态信息特征的不良内容过滤方法,将本文集划分为训练集与测试集,将分词结果和关键词输入到分类算法,提取文本特征,训练分类器;将训练好的分类器用于预测测试集,得到文本分类结果;将文本集和关键词集转为图像数据,将数据图像集与文本集相对应,划分为对应的训练集与测试集,进行相似度计算,得到相似度最大值集合以及最大值对应的关键词集合,如果该关键词集合的关键词满足阈值约束,则匹配成功,则该关键词为相似度最大值对应的关键词,作为图像分类结果;对比文本分类结果与图像分类结果,根据判别条件得到最终的类别预测结果,以过滤该不良内容。
-
公开(公告)号:CN111382276B
公开(公告)日:2023-06-20
申请号:CN201811631236.X
申请日:2018-12-29
Applicant: 中国科学院信息工程研究所
IPC: G06F16/36 , G06F16/332
Abstract: 本发明公开了一种事件发展脉络图生成方法。本方法为:1)对语料库中的每一新闻文本,生成该新闻文本的向量表示并抽取该新闻文本中的实体、事件隐含话题;2)计算目标事件的新闻文本与语料库中各新闻文本之间的实体相似性、话题相似性和向量表示相似性,并根据计算结果选取该目标事件的新闻集合;3)将该新闻集合中的每一篇新闻文本看作该目标事件的事件发展脉络图中的一节点,并计算节点之间的相似度,如果两节点的相似度大于设定阈值,则生成一连接该两节点的边,从而生成该新闻集合的新闻文本关系图;4)对该新闻文本关系图进行子事件划分,得到若干子事件阶段;5)根据每个子事件阶段对应的代表性文档生成该目标事件的事件发展脉络图。
-
公开(公告)号:CN109857866B
公开(公告)日:2021-05-25
申请号:CN201910031772.4
申请日:2019-01-14
Applicant: 中国科学院信息工程研究所
IPC: G06F16/35 , G06F16/33 , G06F16/332
Abstract: 本发明涉及一种面向事件查询建议的关键词抽取方法和事件查询建议生成方法及检索系统。该关键词抽取方法首先从文本中抽取事件的关键元素,并根据事件的关键元素获取事件特征;然后对文本与事件特征进行双向聚类,得到与事件对应的事件关键词。该事件查询建议生成方法将事件关键元素与事件关键词进行组合,生成查询建议。该检索系统包括:在线模块,负责将用户提交的查询映射到对应的事件上;离线模块,包含事件查询建议生成装置,负责根据对应的事件给用户提供相应的查询建议。本发明将事件识别与关键词抽取两个任务同时进行,使得两个任务相互配合与相互受益,同时得到事件及其对应的事件关键词,该事件关键词具有区分相似主题的事件的能力。
-
公开(公告)号:CN109902223B
公开(公告)日:2020-12-04
申请号:CN201910032064.2
申请日:2019-01-14
Applicant: 中国科学院信息工程研究所
IPC: G06F16/9535 , G06F16/9536 , G06F16/35 , G06K9/62
Abstract: 本发明提出了一种基于多模态信息特征的不良内容过滤方法,将文本集划分为训练集与测试集,将分词结果和关键词输入到分类算法,提取文本特征,训练分类器;将训练好的分类器用于预测测试集,得到文本分类结果;将文本集和关键词集转为图像数据,将数据图像集与文本集相对应,划分为对应的训练集与测试集,进行相似度计算,得到相似度最大值集合以及最大值对应的关键词集合,如果该关键词集合的关键词满足阈值约束,则匹配成功,则该关键词为相似度最大值对应的关键词,作为图像分类结果;对比文本分类结果与图像分类结果,根据判别条件得到最终的类别预测结果,以过滤该不良内容。
-
公开(公告)号:CN111382276A
公开(公告)日:2020-07-07
申请号:CN201811631236.X
申请日:2018-12-29
Applicant: 中国科学院信息工程研究所
IPC: G06F16/36 , G06F16/332
Abstract: 本发明公开了一种事件发展脉络图生成方法。本方法为:1)对语料库中的每一新闻文本,生成该新闻文本的向量表示并抽取该新闻文本中的实体、事件隐含话题;2)计算目标事件的新闻文本与语料库中各新闻文本之间的实体相似性、话题相似性和向量表示相似性,并根据计算结果选取该目标事件的新闻集合;3)将该新闻集合中的每一篇新闻文本看作该目标事件的事件发展脉络图中的一节点,并计算节点之间的相似度,如果两节点的相似度大于设定阈值,则生成一连接该两节点的边,从而生成该新闻集合的新闻文本关系图;4)对该新闻文本关系图进行子事件划分,得到若干子事件阶段;5)根据每个子事件阶段对应的代表性文档生成该目标事件的事件发展脉络图。
-
公开(公告)号:CN110008307B
公开(公告)日:2021-12-28
申请号:CN201910048233.1
申请日:2019-01-18
Applicant: 中国科学院信息工程研究所
IPC: G06F16/33 , G06F16/35 , G06F40/289
Abstract: 本发明涉及一种基于规则和统计学习的变形实体识别方法和装置。该方法定义目标实体生成变形实体的规则,并且通过这些规则定义演绎生成算法,为每个目标实体生成大量的候选变形实体集合;利用目标实体和变形实体所在文本的上下文语义相似性,提出基于统计学习的方法来识别出上面候选变形实体集合中真正对应于目标实体的变形实体。本发明既可以找到尽可能多的变形实体,又通过识别模型保证了最终识别出的变形实体的准确性,具有良好的实用性。
-
公开(公告)号:CN109902145A
公开(公告)日:2019-06-18
申请号:CN201910048837.6
申请日:2019-01-18
Applicant: 中国科学院信息工程研究所
Abstract: 本发明涉及一种基于注意力机制的实体关系联合抽取方法和系统。该方法的步骤包括:将训练数据中标注的实体和关系的三元组,转化为每个词对应一个预定义类型的标签的形式;将训练数据的句子中的每个词映射成对应的词向量,输入基于注意力机制的神经网络模型,并通过反向传播算法进行训练,得到标签预测模型;将需进行实体关系抽取的句子输入训练完成的标签预测模型,预测出每个词对应的标签,根据标签和三元组中每个词的对应关系,得到句子中存在的实体关系三元组。该系统包括预处理模块、模型训练模块和结果处理模块。本发明通过更有效的利用句子中的关键信息,提升了关系实体联合抽取的性能,具有良好的实用性。
-
公开(公告)号:CN109857866A
公开(公告)日:2019-06-07
申请号:CN201910031772.4
申请日:2019-01-14
Applicant: 中国科学院信息工程研究所
IPC: G06F16/35 , G06F16/33 , G06F16/332
Abstract: 本发明涉及一种面向事件查询建议的关键词抽取方法和事件查询建议生成方法及检索系统。该关键词抽取方法首先从文本中抽取事件的关键元素,并根据事件的关键元素获取事件特征;然后对文本与事件特征进行双向聚类,得到与事件对应的事件关键词。该事件查询建议生成方法将事件关键元素与事件关键词进行组合,生成查询建议。该检索系统包括:在线模块,负责将用户提交的查询映射到对应的事件上;离线模块,包含事件查询建议生成装置,负责根据对应的事件给用户提供相应的查询建议。本发明将事件识别与关键词抽取两个任务同时进行,使得两个任务相互配合与相互受益,同时得到事件及其对应的事件关键词,该事件关键词具有区分相似主题的事件的能力。
-
-
-
-
-
-
-
-
-