-
公开(公告)号:CN115906763A
公开(公告)日:2023-04-04
申请号:CN202211524881.8
申请日:2022-11-30
申请人: 国家电网有限公司 , 国网重庆市电力公司 , 国网重庆招标有限公司
IPC分类号: G06F40/117 , G06F40/30 , G06F16/35 , G06F18/214 , G06F18/241
摘要: 本发明涉及一种招标文件解析表格抽取方法,包括如下步骤:确定关键字段,选择若干包含有关键字段的招标文档;构建表格抽取模型;将若干包含有关键字段的招标文档作为数据处理模块的输入,输出得到带有标签信息的正样本集和负样本集;构建训练集和测试集;利用训练集对文本分类模块进行训练学习,并用测试集进行验证优化;最终得到训练好的表格抽取模型。本发明方法可以准确快速的识别出行业招标文件中的关键表格信息,尤其是在有其他信息干扰的情况下,也可以准确的识别出所需的相关字段。