-
公开(公告)号:CN117688980A
公开(公告)日:2024-03-12
申请号:CN202311728128.5
申请日:2023-12-14
申请人: 安徽继远软件有限公司
IPC分类号: G06N3/0455 , G06N3/08 , G06F40/289 , G06F16/35 , G06F16/387 , G06Q50/06
摘要: 本发明实施例提供一种顾及电力特征的地址分词深度学习模型构建方法及系统,属于电力语言文本的识别技术领域。所述构建方法包括:获取通用地址和电力行业地址的单数据集;将所述单数据集的部分输入掩盖,以掩盖的内容作为输入,未掩盖的内容作为输出,构成预训练数据集;采用所述预训练数据集训练初始的BAStructBERT模型,以得到初步BAStructBERT模型;根据所述单数据集获取通用地址和电力行业地址的关联数据集;采用所述关联数据集训练所述初步BAStructBERT模型,以得到训练完成的所述BAStructBERT模型。该构建方法及系统能够将通用地址高效转换为电力地址。