发明公开
- 专利标题: 改进的特征加权文本分类方法、系统、介质、设备及终端
-
申请号: CN202111573851.1申请日: 2021-12-21
-
公开(公告)号: CN114254113A公开(公告)日: 2022-03-29
- 发明人: 金平艳 , 石珺 , 李志鹏 , 廖勇 , 杨阳朝
- 申请人: 深圳市网联安瑞网络科技有限公司
- 申请人地址: 广东省深圳市福田区华富街道新田社区深南大道1006号深圳国际创新中心(福田科技广场)C栋二十二层
- 专利权人: 深圳市网联安瑞网络科技有限公司
- 当前专利权人: 深圳市网联安瑞网络科技有限公司
- 当前专利权人地址: 广东省深圳市福田区华富街道新田社区深南大道1006号深圳国际创新中心(福田科技广场)C栋二十二层
- 代理机构: 广东普润知识产权代理有限公司
- 代理商 彭海民
- 主分类号: G06F16/35
- IPC分类号: G06F16/35 ; G06F40/289
摘要:
本发明公开了改进的特征加权文本分类方法、系统、介质、设备及终端,涉及语义网络技术领域。构建文本训练样本、类别集合;对文本进行分词,去停用词操作转换到向量空间模型;提取构建的所述文本训练样本的类别抽象特征;测试样本,先进行分词,去停用词,根据特征加权函数把测试样本转换为向量空间模型,同样提取前m个特征代表测试文本,再计算文本与各类间的相似程度,取相似度最高的为测试文本所属类别;更新文本训练样本库。本发明得到的特征值更能代表类特征和当前文档特征。得到的分类结果更符合经验值,准确率更高。该算法运算处理速度快,简便,得到高效率的分类结果。提高了后续信息检索的效率与准确度。