网页中标数据结构化方法及装置
摘要:
本发明提供一种网页中标数据结构化方法及装置,方法包括:获取网页中标数据;循环读取网页中标数据,并基于预先建立的解析预测模型和结构化映射模板,确定选择表格解析模型或键值解析模型,以对网页中标数据进行解析,并将解析结果存储至关系型数据库中。本发明通过解析预测模型判断采用表格解析模型或键值解析模型对获取的网页中标数据中进行解析,以提高解析效率;另外,结合结构化映射模板,进行解析,以基于较高的准确率和召回率将网页非结构化形式的中标数据转化为结构化数据,从而将最小单元结构化数据存储至关系型数据库中,实现非结构化网页的结构化,提高数据的可读性,节省人工整理成本,便于后期快速对数据进行分析和统计。
公开/授权文献
0/0