发明授权
- 专利标题: 一种非结构化数据的分级分类方法及装置
-
申请号: CN202310987512.0申请日: 2023-08-08
-
公开(公告)号: CN116701641B公开(公告)日: 2023-11-17
- 发明人: 李烨 , 张正初 , 杨定 , 邱伟煌 , 王宇
- 申请人: 广东南方电信规划咨询设计院有限公司
- 申请人地址: 广东省深圳市福田区福田保税区凤凰路万利工业大厦2期东座5、6楼
- 专利权人: 广东南方电信规划咨询设计院有限公司
- 当前专利权人: 广东南方电信规划咨询设计院有限公司
- 当前专利权人地址: 广东省深圳市福田区福田保税区凤凰路万利工业大厦2期东座5、6楼
- 代理机构: 广州三环专利商标代理有限公司
- 代理商 江银会
- 主分类号: G06F16/35
- IPC分类号: G06F16/35 ; G06F16/335 ; G06F40/194 ; G06F40/279 ; G06F40/30 ; G06F21/60
摘要:
本发明公开了一种非结构化数据的分级分类方法及装置,该方法包括:基于全盘扫描方式,从所有非结构化数据文件中筛选出文件格式为目标文件格式的目标文件;基于关键词抽取算法,从目标文件所记载文本中抽取出目标文件对应的目标关键词集合;根据目标关键词集合确定关联词集合;计算目标文件对应的语义核心词集合与标准文件类型对应的标准关键词集合之间的相似度,得到目标文件与标准文件类型的分类相似度;从所有标准文件类型中筛选出分类相似度大于预设相似度阈值的标准文件类型作为目标文件的目标文件类型;根据目标文件类型和目标关键词集合,确定目标文件的目标安全保密等级。可见,实施本发明能够准确高效地对非结构化数据进行分级分类。
公开/授权文献
- CN116701641A 一种非结构化数据的分级分类方法及装置 公开/授权日:2023-09-05