-
公开(公告)号:CN114492387B
公开(公告)日:2022-07-19
申请号:CN202210401179.6
申请日:2022-04-18
IPC分类号: G06F40/211 , G06F40/284 , G06F40/237 , G06N20/00
摘要: 本发明公开一种基于句法结构的领域自适应方面术语抽取方法及系统,包括将源领域和目标领域中词的词性和句法依赖关系作为句法结构信息;计算源领域方面术语的平均词性特征和平均句法依赖关系特征并作为方面术语的平均句法结构特征;根据句法结构信息计算源领域和目标领域中每个词和平均句法结构特征的相似度;对基于Transformer的预训练模型进行基于句法结构相似度的再预训练;基于掩码语言模型MLM构建方面术语抽取模型并进行训练,训练过程中对术语抽取模型的交叉熵损失函数进行加权。本发明能学习到词语级领域不变表征,在细粒度的文本抽取任务中能取得不错的成效。
-
公开(公告)号:CN114492387A
公开(公告)日:2022-05-13
申请号:CN202210401179.6
申请日:2022-04-18
IPC分类号: G06F40/211 , G06F40/284 , G06F40/237 , G06N20/00
摘要: 本发明公开一种基于句法结构的领域自适应方面术语抽取方法及系统,包括将源领域和目标领域中词的词性和句法依赖关系作为句法结构信息;计算源领域方面术语的平均词性特征和平均句法依赖关系特征并作为方面术语的平均句法结构特征;根据句法结构信息计算源领域和目标领域中每个词和平均句法结构特征的相似度;对基于Transformer的预训练模型进行基于句法结构相似度的再预训练;基于掩码语言模型MLM构建方面术语抽取模型并进行训练,训练过程中对术语抽取模型的交叉熵损失函数进行加权。本发明能学习到词语级领域不变表征,在细粒度的文本抽取任务中能取得不错的成效。
-