-
公开(公告)号:CN110941692B
公开(公告)日:2022-07-29
申请号:CN201910937986.8
申请日:2019-09-28
Applicant: 西南电子技术研究所(中国电子科技集团公司第十研究所)
IPC: G06F16/31 , G06F16/33 , G06F40/211 , G06F40/289
Abstract: 本发明公开的一种互联网政治外交类新闻事件抽取方法,旨在提供一种能够提高事件识别准确率的抽取方法,本发明通过下述技术方案予以实现:采用人工构建初始触发词集合,根据触发词集合定义事件类别,针对每类事件构建触发词表和包含触发词、事件论元角色的事件类别模板;结合文本依存句法,分析、识别和抽取政外领域事件元素。完成单文本预处理操作,并基于义原相似性计算并扩展类别事件触发词;将满足相似度的阈值的句子作为候选事件句。筛选满足事件类别模板的事件元素,提取事件句中的实体要素;再按照事件模板将事件元素填充到对应的论元角色中;筛选满足类别模板的候选事件元素;按事件模板生成事件的结构化描述文件,构建出政外领域事件库。
-
公开(公告)号:CN110941692A
公开(公告)日:2020-03-31
申请号:CN201910937986.8
申请日:2019-09-28
Applicant: 西南电子技术研究所(中国电子科技集团公司第十研究所)
IPC: G06F16/31 , G06F16/33 , G06F40/211 , G06F40/289
Abstract: 本发明公开的一种互联网政治外交类新闻事件抽取方法,旨在提供一种能够提高事件识别准确率的抽取方法,本发明通过下述技术方案予以实现:采用人工构建初始触发词集合,根据触发词集合定义事件类别,针对每类事件构建触发词表和包含触发词、事件论元角色的事件类别模板;结合文本依存句法,分析、识别和抽取政外领域事件元素。完成单文本预处理操作,并基于义原相似性计算并扩展类别事件触发词;将满足相似度的阈值的句子作为候选事件句。筛选满足事件类别模板的事件元素,提取事件句中的实体要素;再按照事件模板将事件元素填充到对应的论元角色中;筛选满足类别模板的候选事件元素;按事件模板生成事件的结构化描述文件,构建出政外领域事件库。
-
公开(公告)号:CN110287482A
公开(公告)日:2019-09-27
申请号:CN201910455093.X
申请日:2019-05-29
Applicant: 西南电子技术研究所(中国电子科技集团公司第十研究所)
Abstract: 本发明一种半自动化分词语料标注训练装置,旨在解决分词语料标注及训练过程中使用语料存在的弊端。本发明通过下述技术方案予以实现:文本语料标注准备模块对待标注语料、分词语料的管理,通过基于集成词典的双向最大匹配分词、CRF、JIEBA、等多种分词算法,将生语料分词标注工作提交给半自动化语料分词标注模块,创建分词标注任务,选择标注适用算法模型,开展自动标注,在自动标注结果融合的基础上,将文本语料标注准备模块产生的训练模型语料和标注模型反馈至反馈式模型学习训练模块,选择和模型学习训练,调用统一训练模型接口生成核心词典,更新分词训练模型表,建立标注算法综合评估模型对模型标注效果进行评估,完成新的分词标注任务。
-
公开(公告)号:CN110287482B
公开(公告)日:2022-07-08
申请号:CN201910455093.X
申请日:2019-05-29
Applicant: 西南电子技术研究所(中国电子科技集团公司第十研究所)
IPC: G06F40/289 , G06F40/211 , G06K9/62
Abstract: 本发明一种半自动化分词语料标注训练装置,旨在解决分词语料标注及训练过程中使用语料存在的弊端。本发明通过下述技术方案予以实现:文本语料标注准备模块对待标注语料、分词语料的管理,通过基于集成词典的双向最大匹配分词、CRF、JIEBA、等多种分词算法,将生语料分词标注工作提交给半自动化语料分词标注模块,创建分词标注任务,选择标注适用算法模型,开展自动标注,在自动标注结果融合的基础上,将文本语料标注准备模块产生的训练模型语料和标注模型反馈至反馈式模型学习训练模块,选择和模型学习训练,调用统一训练模型接口生成核心词典,更新分词训练模型表,建立标注算法综合评估模型对模型标注效果进行评估,完成新的分词标注任务。
-
-
-