一种基于XML的非结构化数据识别方法

    公开(公告)号:CN115718817A

    公开(公告)日:2023-02-28

    申请号:CN202211492264.4

    申请日:2022-11-25

    摘要: 本发明涉及非结构化数据识别方法技术领域,具体为一种基于XML的非结构化数据识别方法,包括以下步骤,S1:在数据存储时,对数据进行区分并添加标记;S2:定义文件内容基本属性,并进行特征识别验证。本发明中,通过基于传输时间、传输批次和传输文件项目对数据文件进行归类编组,并添加同类项扩展标记的方式建立标记备注文件,对文件进行直属单位标记和同类项标注,确保数据源内容的全面性,通过初步识别文件并注释识别内容,基于历史所识别文件,提升文件之间的参照性,使得识别效果更加完善,通过结果合并器完成处理工作,并生成独立的特征批注文件,在检索同类特征时优先调用,达成数据训练的效果,提升数据识别效率。