- 专利标题: 一种基于BERTSUM模型的文本摘要提取方法
-
申请号: CN202111519931.9申请日: 2021-12-13
-
公开(公告)号: CN114139497B公开(公告)日: 2024-08-23
- 发明人: 王移兵 , 艾冰 , 季良 , 尹佳 , 刘文涛 , 王婷 , 贾崟 , 张壁君 , 高珊 , 张晓宇
- 申请人: 国家电网有限公司大数据中心
- 申请人地址: 北京市西城区白广路二条一号综合楼330房间
- 专利权人: 国家电网有限公司大数据中心
- 当前专利权人: 国家电网有限公司大数据中心
- 当前专利权人地址: 北京市西城区白广路二条一号综合楼330房间
- 代理机构: 郑州欧凯专利代理事务所
- 代理商 王志兴
- 主分类号: G06F40/126
- IPC分类号: G06F40/126 ; G06F40/194 ; G06F40/30 ; G06N3/0475 ; G06N3/08
摘要:
本发明属于文本摘要提取技术领域,尤其为一种基于BERTSUM模型的文本摘要提取方法先对需要提取摘要的文本进行预处理,然后将预处理后的数据输入改进的BERT模型进行处理,判断出应该出现在摘要中的句子,BERT模型的改进过程中,在BERT模型原本的损失函数中增加一个余弦相似度损失,避免了数据处理中过度拟合,使得获得的摘要更加准确;另外,通过加入余弦相似性约束,使得BERT模型在训练早期,获得的结果的损失能够更快的下降,提高数据处理的速度;BERT模型的改进方面还包括加入融合指针网络的UniLM模型,通过融合指针网络的UniLM模型对文本下游生成任务进行微调,提前获取文本中的关键信息词,提高文本摘要的获得速度。
公开/授权文献
- CN114139497A 一种基于BERTSUM模型的文本摘要提取方法 公开/授权日:2022-03-04