一种文本分类方法及系统
摘要:
本发明公开了一种文本分类方法及系统,方法包括:获取待分类文本的父标签并转化为父标签词索引向量;将父标签词索引向量与文本词索引向量进行父标签嵌入操作得到文本词索引表征,然后进行转化生成待分类文本的语义向量;利用神经元有序的循环神经网络学习语义向量的层次结构,对层次结构的各层参数进行训练输出文本表征;利用多层感知器对文本表征进行非线性操作,获取待分类文本各层标签对应的概率分布;根据文本最后一层标签的概率分布获取文本分类结果。本发明将神经元有序的循环神经网络和多层感知器的组合模型处理大量标签的文本分类任务,涉及的参数少收敛速度快,通过对文本进行逐层的方式,与现有的平面分类器相比,大大提高了分类性能。
公开/授权文献
0/0