一种长文本实体识别方法、装置、计算机设备及介质

    公开(公告)号:CN116702787A

    公开(公告)日:2023-09-05

    申请号:CN202310981548.8

    申请日:2023-08-07

    摘要: 本发明涉及数据处理技术领域,尤其涉及一种长文本实体识别方法、装置、计算机设备及介质,方法包括:获取N个长文本数据作为训练样本,每个长文本数据的实体内容均有标注实体类型;将每个长文本数据截取为M个文段;将每个长文本数据的M个文段输入改进的Roberta模型中进行训练,得到识别模型,改进的Roberta模型包括编码层、加性注意力层以及分类层,编码层用于对每个文段进行编码,得到每个文段的编码信息,加性注意力层用于基于每个文段的编码信息,得到每个文段的编码矩阵,使得每个文段的编码矩阵包含当前文段的编码信息和之前文段的编码信息;获取待识别文本,并基于该识别模型,得到待识别文本的实体内容及实体类别;提高了长文本实体识别的准确性。