基于集成学习的多标签文本分类计算方法
摘要:
本发明属于计算机文本分类技术领域,尤其涉及一种基于集成学习的多标签文本分类计算方法,包括:步骤1:对原始数据集进行预处理,将句子分段成为一个个独立的单词,删除非关键词;步骤2:采用词频-逆文本频率的方式对文本进行特征提取向量化处理;步骤3:采用二元关联法将多标签学习问题分解为多个独立的二元分类问题,每个二元分类问题对应于标签空间中的一个标签;步骤4:采用集成学习算法对标签进行分类。本发明降低了时间复杂度,提高了训练速度,提高了弱学习器的泛化能力,降低了过拟合的风险,增加模型的鲁棒性。
0/0