非结构化文本数据分类分级方法、装置、设备、存储介质及程序产品
摘要:
本发明公开了一种非结构化文本数据分类分级方法、装置、设备、存储介质及程序产品,基于非结构化的文本数据的文件属性信息,将所述文本数据划分为至少一组相关文件;对于每组所述相关文件,根据各个所述相关文件之间的相似度和所述相关文件的文本长度,从对应相关文件中确定至少一组相似文件以及每一组相似文件中的长文本和短文本;对所述长文本进行关键句子提取,生成所述长文本的摘要内容;根据所述长文本的摘要内容和所述短文本的全文内容,对相应相似文件进行复合分类;根据复合分类后的所述长文本的摘要内容和所述短文本的全文内容,对相应相似文件进行分级,从而可以提高文本分类分级效率和准确度。
0/0