发明公开
- 专利标题: 一种基于多源特征的文本分类方法、终端设备及存储介质
-
申请号: CN202111564960.7申请日: 2021-12-20
-
公开(公告)号: CN114444497A公开(公告)日: 2022-05-06
- 发明人: 刘晓芳 , 杜新胜 , 陈志明 , 赵建强 , 庄灿波
- 申请人: 厦门市美亚柏科信息股份有限公司
- 申请人地址: 福建省厦门市软件园二期观日路12号102-402单元
- 专利权人: 厦门市美亚柏科信息股份有限公司
- 当前专利权人: 厦门市美亚柏科信息股份有限公司
- 当前专利权人地址: 福建省厦门市软件园二期观日路12号102-402单元
- 主分类号: G06F40/289
- IPC分类号: G06F40/289 ; G06F40/30 ; G06F16/33 ; G06F16/35 ; G06N3/04 ; G06N3/08
摘要:
本发明涉及一种基于多源特征的文本分类方法、终端设备及存储介质,该方法中包括:S1:接收文本并分词;S2:通过在LSTM网络中添加自注意力机制的方式,获取词注意力权重矩阵和字注意力权重矩阵;S3:构建关键词表,基于分词结果,从关键词表中查找核心关键词表;S4:采用N种关键词提取算法提取得到N个候选关键词表;S5:基于词注意力权重矩阵和字注意力权重矩阵,根据候选关键词表得到拓展关键词表和拓展关键字表;S6:将核心关键词表、拓展关键词表和拓展关键字表中的所有字和词作为关键词和关键字;S7:对关键词和关键字进行特征提取;S8:基于提取的特征,通过分类网络对文本的类别进行预测。本发明提高文本分类的准确率。