-
公开(公告)号:CN111949770A
公开(公告)日:2020-11-17
申请号:CN202010856639.5
申请日:2020-08-24
Applicant: 国网浙江省电力有限公司信息通信分公司 , 国网浙江省电力有限公司
IPC: G06F16/33 , G06F16/35 , G06F40/289
Abstract: 本发明提供了一种文档分类方法及装置,创建分类语料库,将分类语料库划分为训练集和测试集,通过根据分类语料库对应的词典从训练集和测试集的每个文档中提取文档特征向量,提高了文档特征提取的准确性,在此基础上,通过利用训练集的文档特征向量对多个机器学习模型进行训练,并根据测试集的文档特征向量对每个训练得到的分类模型的分类效果进行评价,将分类效果最好的分类模型作为最终的文档分类模型,最后利用该文档分类模型进行文档分类,提高了文档分类的准确性。