一种基于迁移学习的建筑行业文本纠错方法
摘要:
本发明提出一种基于迁移学习的建筑行业文本纠错方法,用以解决现有技术中以建筑施工方案文档为代表的多领域复合文档数据缺乏,导致文本纠错任务困难的问题。本发明首先建立建筑文档语料数据集和无标签相关领域数据集,然后利用BERT模型对数据集进行文本纠错,并采用迁移学习的方法,将预训练后的BERT模型应用到无标签相关领域数据集中,使其获得来自不同细分领域的词汇信息,最后抽取建筑文档语料数据集中的训练样本对迁移学习后的BERT模型进行再训练,使其适用于建筑行业文本纠错任务。为了针对不同训练阶段能够动态调整预训练任务,引入了预训练系数,以提高语序矫正任务的性能。本发明在纠错任务上具有更高的精确率、召回率及更低的误报率。
0/0