- 专利标题: 基于预训练语言模型与文本特征融合的空间关系抽取方法
-
申请号: CN202111338542.6申请日: 2021-11-12
-
公开(公告)号: CN114528368B公开(公告)日: 2023-08-25
- 发明人: 张雪英 , 吴恪涵 , 王益鹏
- 申请人: 南京师范大学
- 申请人地址: 江苏省南京市栖霞区文苑路1号
- 专利权人: 南京师范大学
- 当前专利权人: 南京师范大学
- 当前专利权人地址: 江苏省南京市栖霞区文苑路1号
- 代理机构: 南京锐恒专利代理事务所
- 代理商 陈思
- 主分类号: G06F16/31
- IPC分类号: G06F16/31 ; G06F16/33 ; G06F16/35 ; G06F40/253 ; G06F40/30 ; G06N3/0499 ; G06N3/09
摘要:
本发明公开了基于预训练语言模型和文本特征融合的空间关系抽取方法,首先对文本数据进行清洗和预处理,利用预训练语言模型实现单条或批量文本数据向低维字向量的转化,保证不同长度的文本数据转化而来的低维字向量维度能保持一致;然后由前馈神经网络构成的二分类器和字向量预测文本中地理实体、空间关系特征词的开始与结束位置,并依据开始、结束位置和字向量表示,通过池化方法来生成字符跨度表示;最后依据字符跨度表示来进行地理实体识别和空间关系分类两项任务,进而实现文本空间关系抽取。本发明很好地顾及了地理实体类型、空间关系特征词与空间关系抽取的关联关系,实现了面向文本的三元组形式空间关系抽取,具有较好的拓展性和普适性。
公开/授权文献
- CN114528368A 基于预训练语言模型与文本特征融合的空间关系抽取方法 公开/授权日:2022-05-24