一种非结构化数据的分级分类方法及装置
摘要:
本发明公开了一种非结构化数据的分级分类方法及装置,该方法包括:基于全盘扫描方式,从所有非结构化数据文件中筛选出文件格式为目标文件格式的目标文件;基于关键词抽取算法,从目标文件所记载文本中抽取出目标文件对应的目标关键词集合;根据目标关键词集合确定关联词集合;计算目标文件对应的语义核心词集合与标准文件类型对应的标准关键词集合之间的相似度,得到目标文件与标准文件类型的分类相似度;从所有标准文件类型中筛选出分类相似度大于预设相似度阈值的标准文件类型作为目标文件的目标文件类型;根据目标文件类型和目标关键词集合,确定目标文件的目标安全保密等级。可见,实施本发明能够准确高效地对非结构化数据进行分级分类。
公开/授权文献
0/0