基于预训练语言模型与文本特征融合的空间关系抽取方法

    公开(公告)号:CN114528368B

    公开(公告)日:2023-08-25

    申请号:CN202111338542.6

    申请日:2021-11-12

    摘要: 本发明公开了基于预训练语言模型和文本特征融合的空间关系抽取方法,首先对文本数据进行清洗和预处理,利用预训练语言模型实现单条或批量文本数据向低维字向量的转化,保证不同长度的文本数据转化而来的低维字向量维度能保持一致;然后由前馈神经网络构成的二分类器和字向量预测文本中地理实体、空间关系特征词的开始与结束位置,并依据开始、结束位置和字向量表示,通过池化方法来生成字符跨度表示;最后依据字符跨度表示来进行地理实体识别和空间关系分类两项任务,进而实现文本空间关系抽取。本发明很好地顾及了地理实体类型、空间关系特征词与空间关系抽取的关联关系,实现了面向文本的三元组形式空间关系抽取,具有较好的拓展性和普适性。

    面向多语种的通用地名语义相似度计算方法及其应用

    公开(公告)号:CN111325235B

    公开(公告)日:2023-04-25

    申请号:CN202010058317.6

    申请日:2020-01-19

    摘要: 本发明公开了一种面向多语种的通用地名语义相似度计算方法及其应用。通过分析多种语种地名的构词特点、隶属关系和空间位置等语义特征,发现地名的类别、字符串和空间位置特征容易获取且能够有效地区分地名。由此,本发明根据这三种地名语义特征,分别构建地名类别相似度模型、地名字符串相似度模型和地名空间邻近度模型。然后,综合考虑地名类别相似度、字符串相似度和空间邻近度,提出一种面向多语种的通用地名语义相似度计算方法。相比于只考虑地名字符串或空间几何特征的地名相似度计算方法,本发明提供的方法能够显著提高地名相似度计算的准确性,可以更好地满足大数据环境下多语种地名的查询、匹配和共享服务等应用需求。

    面向多语种的通用地名语义相似度计算方法及其应用

    公开(公告)号:CN111325235A

    公开(公告)日:2020-06-23

    申请号:CN202010058317.6

    申请日:2020-01-19

    摘要: 本发明公开了一种面向多语种的通用地名语义相似度计算方法及其应用。通过分析多种语种地名的构词特点、隶属关系和空间位置等语义特征,发现地名的类别、字符串和空间位置特征容易获取且能够有效地区分地名。由此,本发明根据这三种地名语义特征,分别构建地名类别相似度模型、地名字符串相似度模型和地名空间邻近度模型。然后,综合考虑地名类别相似度、字符串相似度和空间邻近度,提出一种面向多语种的通用地名语义相似度计算方法。相比于只考虑地名字符串或空间几何特征的地名相似度计算方法,本发明提供的方法能够显著提高地名相似度计算的准确性,可以更好地满足大数据环境下多语种地名的查询、匹配和共享服务等应用需求。

    基于预训练语言模型与文本特征融合的空间关系抽取方法

    公开(公告)号:CN114528368A

    公开(公告)日:2022-05-24

    申请号:CN202111338542.6

    申请日:2021-11-12

    摘要: 本发明公开了基于预训练语言模型和文本特征融合的空间关系抽取方法,首先对文本数据进行清洗和预处理,利用预训练语言模型实现单条或批量文本数据向低维字向量的转化,保证不同长度的文本数据转化而来的低维字向量维度能保持一致;然后由前馈神经网络构成的二分类器和字向量预测文本中地理实体、空间关系特征词的开始与结束位置,并依据开始、结束位置和字向量表示,通过池化方法来生成字符跨度表示;最后依据字符跨度表示来进行地理实体识别和空间关系分类两项任务,进而实现文本空间关系抽取。本发明很好地顾及了地理实体类型、空间关系特征词与空间关系抽取的关联关系,实现了面向文本的三元组形式空间关系抽取,具有较好的拓展性和普适性。