-
公开(公告)号:CN110968693A
公开(公告)日:2020-04-07
申请号:CN201911085655.2
申请日:2019-11-08
申请人: 华北电力大学 , 国家电网有限公司信息通信分公司 , 国网山东省电力公司信息通信公司 , 国家电网有限公司
IPC分类号: G06F16/35
摘要: 本发明属于计算机文本分类技术领域,尤其涉及一种基于集成学习的多标签文本分类计算方法,包括:步骤1:对原始数据集进行预处理,将句子分段成为一个个独立的单词,删除非关键词;步骤2:采用词频-逆文本频率的方式对文本进行特征提取向量化处理;步骤3:采用二元关联法将多标签学习问题分解为多个独立的二元分类问题,每个二元分类问题对应于标签空间中的一个标签;步骤4:采用集成学习算法对标签进行分类。本发明降低了时间复杂度,提高了训练速度,提高了弱学习器的泛化能力,降低了过拟合的风险,增加模型的鲁棒性。