-
公开(公告)号:CN110298032A
公开(公告)日:2019-10-01
申请号:CN201910455049.9
申请日:2019-05-29
Applicant: 西南电子技术研究所(中国电子科技集团公司第十研究所)
Abstract: 本发明公开的一种文本分类语料标注训练系统,旨在提供一种能够降低人工标注反复度,并能提升预标注结果准确性的半自动化标注训练装置。本发明通过下述技术方案予以实现:文本分类语料标注准备模块统计文本词频,去除文本的噪声信息;半自动化文本分类标注模块在分类标注任务中选择CNN、KNN、ANN、深度学习算法,把非结构化和半结构化的文本转换为向量空间模型,生成文本的词向量空间,抽取反映文档主题特征;当标注任务完成后,反馈式模型学习训练模块反馈分类标注模型完善更新;文本分类标注模型效果评估模块基于分类指标规则对评测指标进行量化,建立标注算法综合评估模型,分析测试结果,评价分类结果,对模型指标量化标注效果进行评估。
-
公开(公告)号:CN110298032B
公开(公告)日:2022-06-14
申请号:CN201910455049.9
申请日:2019-05-29
Applicant: 西南电子技术研究所(中国电子科技集团公司第十研究所)
IPC: G06F40/289 , G06K9/62
Abstract: 本发明公开的一种文本分类语料标注训练系统,旨在提供一种能够降低人工标注反复度,并能提升预标注结果准确性的半自动化标注训练装置。本发明通过下述技术方案予以实现:文本分类语料标注准备模块统计文本词频,去除文本的噪声信息;半自动化文本语料分类标注模块在分类标注任务中选择CNN、KNN、ANN、深度学习算法,把非结构化和半结构化的文本转换为向量空间模型,生成文本的词向量空间,抽取反映文档主题特征;当标注任务完成后,反馈式分类标注模型学习训练模块反馈分类标注模型完善更新;文本分类标注模型效果评估模块基于分类指标规则对评测指标进行量化,建立标注算法综合评估模型,分析测试结果,评价分类结果,对模型指标量化标注效果进行评估。
-