发明公开
CN110968693A 基于集成学习的多标签文本分类计算方法
无效 - 驳回
- 专利标题: 基于集成学习的多标签文本分类计算方法
-
申请号: CN201911085655.2申请日: 2019-11-08
-
公开(公告)号: CN110968693A公开(公告)日: 2020-04-07
- 发明人: 马应龙 , 闫君璐 , 李莉敏 , 张冰 , 陈亮 , 王乔木 , 张大伟 , 王玮 , 郗子月
- 申请人: 华北电力大学 , 国家电网有限公司信息通信分公司 , 国网山东省电力公司信息通信公司 , 国家电网有限公司
- 申请人地址: 北京市昌平区朱辛庄北农路2号
- 专利权人: 华北电力大学,国家电网有限公司信息通信分公司,国网山东省电力公司信息通信公司,国家电网有限公司
- 当前专利权人: 华北电力大学,国家电网有限公司信息通信分公司,国网山东省电力公司信息通信公司,国家电网有限公司
- 当前专利权人地址: 北京市昌平区朱辛庄北农路2号
- 代理机构: 北京众合诚成知识产权代理有限公司
- 代理商 史双元
- 主分类号: G06F16/35
- IPC分类号: G06F16/35
摘要:
本发明属于计算机文本分类技术领域,尤其涉及一种基于集成学习的多标签文本分类计算方法,包括:步骤1:对原始数据集进行预处理,将句子分段成为一个个独立的单词,删除非关键词;步骤2:采用词频-逆文本频率的方式对文本进行特征提取向量化处理;步骤3:采用二元关联法将多标签学习问题分解为多个独立的二元分类问题,每个二元分类问题对应于标签空间中的一个标签;步骤4:采用集成学习算法对标签进行分类。本发明降低了时间复杂度,提高了训练速度,提高了弱学习器的泛化能力,降低了过拟合的风险,增加模型的鲁棒性。