发明公开
- 专利标题: 非结构化文本数据分类分级方法、装置、设备、存储介质及程序产品
-
申请号: CN202410191985.4申请日: 2024-02-21
-
公开(公告)号: CN118797056A公开(公告)日: 2024-10-18
- 发明人: 易子仪 , 郭斯栩
- 申请人: 中国移动通信有限公司研究院 , 中国移动通信集团有限公司
- 申请人地址: 北京市西城区宣武门西大街32号;
- 专利权人: 中国移动通信有限公司研究院,中国移动通信集团有限公司
- 当前专利权人: 中国移动通信有限公司研究院,中国移动通信集团有限公司
- 当前专利权人地址: 北京市西城区宣武门西大街32号;
- 代理机构: 广州三环专利商标代理有限公司
- 代理商 李妙芬
- 主分类号: G06F16/35
- IPC分类号: G06F16/35 ; G06F16/34 ; G06F40/279 ; G06F40/194
摘要:
本发明公开了一种非结构化文本数据分类分级方法、装置、设备、存储介质及程序产品,基于非结构化的文本数据的文件属性信息,将所述文本数据划分为至少一组相关文件;对于每组所述相关文件,根据各个所述相关文件之间的相似度和所述相关文件的文本长度,从对应相关文件中确定至少一组相似文件以及每一组相似文件中的长文本和短文本;对所述长文本进行关键句子提取,生成所述长文本的摘要内容;根据所述长文本的摘要内容和所述短文本的全文内容,对相应相似文件进行复合分类;根据复合分类后的所述长文本的摘要内容和所述短文本的全文内容,对相应相似文件进行分级,从而可以提高文本分类分级效率和准确度。