-
公开(公告)号:CN117391086A
公开(公告)日:2024-01-12
申请号:CN202311690779.X
申请日:2023-12-11
申请人: 四川隧唐科技股份有限公司
发明人: 张森 , 许云侠 , 黄学涛 , 盛润 , 唐明建 , 张润南 , 张大丽 , 张纯豪 , 畅敏 , 温小波 , 杨伟栋 , 巩建 , 田财瑞 , 张胜为 , 杨亮亮 , 蔡智勇 , 郭星辉 , 冯波 , 吴昊
IPC分类号: G06F40/295 , G06F16/33 , G06Q30/08
摘要: 本申请提供一种投标参与信息抽取方法、装置、设备及介质,涉及招投标数据处理技术领域,用于解决招投标数据的信息抽取的准确性较差的问题。该投标参与信息抽取方法包括:对第一招投标数据进行预处理,获得第一文本数据;将第一文本数据输入训练后的信息抽取模型,获得第一文本数据中每个投标参与字段的类别和位置信息;训练后的信息抽取模型是基于已标注的数据集进行训练得到的;根据第一文本数据中每个投标参与字段的类别和位置信息,对第一文本数据中各个投标参与字段之间的关系进行匹配,获得第一招投标数据中的投标参与信息。该方法基于投标参与字段的类别和位置信息进行信息抽取,提高了招投标数据的信息抽取的准确性。
-
公开(公告)号:CN116702787A
公开(公告)日:2023-09-05
申请号:CN202310981548.8
申请日:2023-08-07
申请人: 四川隧唐科技股份有限公司
IPC分类号: G06F40/295 , G06F16/35 , G06F40/126 , G06F18/214 , G06F18/241
摘要: 本发明涉及数据处理技术领域,尤其涉及一种长文本实体识别方法、装置、计算机设备及介质,方法包括:获取N个长文本数据作为训练样本,每个长文本数据的实体内容均有标注实体类型;将每个长文本数据截取为M个文段;将每个长文本数据的M个文段输入改进的Roberta模型中进行训练,得到识别模型,改进的Roberta模型包括编码层、加性注意力层以及分类层,编码层用于对每个文段进行编码,得到每个文段的编码信息,加性注意力层用于基于每个文段的编码信息,得到每个文段的编码矩阵,使得每个文段的编码矩阵包含当前文段的编码信息和之前文段的编码信息;获取待识别文本,并基于该识别模型,得到待识别文本的实体内容及实体类别;提高了长文本实体识别的准确性。
-