发明授权
- 专利标题: 网页中标数据结构化方法及装置
-
申请号: CN202211118991.4申请日: 2022-09-15
-
公开(公告)号: CN115203309B公开(公告)日: 2022-11-29
- 发明人: 刘成书 , 王涛 , 杨瑞龙 , 韩博 , 刘真 , 武自伟 , 林沙平 , 张丽娟 , 唐海霞
- 申请人: 北京信立方科技发展股份有限公司
- 申请人地址: 北京市西城区新街口外大街28号B座416室(德胜园区)
- 专利权人: 北京信立方科技发展股份有限公司
- 当前专利权人: 北京信立方科技发展股份有限公司
- 当前专利权人地址: 北京市西城区新街口外大街28号B座416室(德胜园区)
- 代理机构: 北京路浩知识产权代理有限公司
- 代理商 耿琦
- 主分类号: G06F16/25
- IPC分类号: G06F16/25 ; G06F16/22 ; G06F40/151
摘要:
本发明提供一种网页中标数据结构化方法及装置,方法包括:获取网页中标数据;循环读取网页中标数据,并基于预先建立的解析预测模型和结构化映射模板,确定选择表格解析模型或键值解析模型,以对网页中标数据进行解析,并将解析结果存储至关系型数据库中。本发明通过解析预测模型判断采用表格解析模型或键值解析模型对获取的网页中标数据中进行解析,以提高解析效率;另外,结合结构化映射模板,进行解析,以基于较高的准确率和召回率将网页非结构化形式的中标数据转化为结构化数据,从而将最小单元结构化数据存储至关系型数据库中,实现非结构化网页的结构化,提高数据的可读性,节省人工整理成本,便于后期快速对数据进行分析和统计。
公开/授权文献
- CN115203309A 网页中标数据结构化方法及装置 公开/授权日:2022-10-18