发明公开
- 专利标题: 一种基于多模型集成的短文本分类方法和系统
-
申请号: CN201911229492.0申请日: 2019-12-04
-
公开(公告)号: CN111078876A公开(公告)日: 2020-04-28
- 发明人: 段东圣 , 井雅琪 , 任博雅 , 时磊 , 孙旷怡 , 李扬曦 , 佟玲玲 , 习健 , 宋永浩
- 申请人: 国家计算机网络与信息安全管理中心 , 中国科学院计算技术研究所
- 申请人地址: 北京市朝阳区裕民路甲3号
- 专利权人: 国家计算机网络与信息安全管理中心,中国科学院计算技术研究所
- 当前专利权人: 国家计算机网络与信息安全管理中心,中国科学院计算技术研究所
- 当前专利权人地址: 北京市朝阳区裕民路甲3号
- 代理机构: 北京律诚同业知识产权代理有限公司
- 代理商 祁建国
- 主分类号: G06F16/35
- IPC分类号: G06F16/35
摘要:
本发明提出了一种基于多模型集成的短文本分类方法,包括:选取多个对短文本进行分类的分类模型;对训练样本进行采样,生成与该分类模型一一对应的训练集;通过对应的训练集对该分类模型进行训练,以获得对应的最终模型;通过所有该最终模型对目标文本进行分类,获取多个分类结果向量;集成所有该分类结果向量以得到最终结果向量,以该最终结果向量中具有最大值的元素所代表的类别,作为该目标文本的类别。