发明公开
- 专利标题: 一种基于迁移学习的建筑行业文本纠错方法
-
申请号: CN202111160118.7申请日: 2021-09-30
-
公开(公告)号: CN113836919A公开(公告)日: 2021-12-24
- 发明人: 侯振国 , 何海英 , 张中善 , 杨伟涛 , 李佳男 , 张传浩 , 张培聪 , 孙维东 , 阴栋阳
- 申请人: 中国建筑第七工程局有限公司 , 中建七局总承包有限公司
- 申请人地址: 河南省郑州市经开第十五大街267号;
- 专利权人: 中国建筑第七工程局有限公司,中建七局总承包有限公司
- 当前专利权人: 中国建筑第七工程局有限公司,中建七局总承包有限公司
- 当前专利权人地址: 河南省郑州市经开第十五大街267号;
- 代理机构: 郑州优盾知识产权代理有限公司
- 代理商 郑园
- 主分类号: G06F40/289
- IPC分类号: G06F40/289 ; G06F40/242 ; G06F40/211 ; G06N3/04 ; G06N3/08
摘要:
本发明提出一种基于迁移学习的建筑行业文本纠错方法,用以解决现有技术中以建筑施工方案文档为代表的多领域复合文档数据缺乏,导致文本纠错任务困难的问题。本发明首先建立建筑文档语料数据集和无标签相关领域数据集,然后利用BERT模型对数据集进行文本纠错,并采用迁移学习的方法,将预训练后的BERT模型应用到无标签相关领域数据集中,使其获得来自不同细分领域的词汇信息,最后抽取建筑文档语料数据集中的训练样本对迁移学习后的BERT模型进行再训练,使其适用于建筑行业文本纠错任务。为了针对不同训练阶段能够动态调整预训练任务,引入了预训练系数,以提高语序矫正任务的性能。本发明在纠错任务上具有更高的精确率、召回率及更低的误报率。