改进的特征加权文本分类方法、系统、介质、设备及终端
摘要:
本发明公开了改进的特征加权文本分类方法、系统、介质、设备及终端,涉及语义网络技术领域。构建文本训练样本、类别集合;对文本进行分词,去停用词操作转换到向量空间模型;提取构建的所述文本训练样本的类别抽象特征;测试样本,先进行分词,去停用词,根据特征加权函数把测试样本转换为向量空间模型,同样提取前m个特征代表测试文本,再计算文本与各类间的相似程度,取相似度最高的为测试文本所属类别;更新文本训练样本库。本发明得到的特征值更能代表类特征和当前文档特征。得到的分类结果更符合经验值,准确率更高。该算法运算处理速度快,简便,得到高效率的分类结果。提高了后续信息检索的效率与准确度。
0/0