-
公开(公告)号:CN116306617A
公开(公告)日:2023-06-23
申请号:CN202310279284.1
申请日:2023-03-21
申请人: 南京大学
IPC分类号: G06F40/284 , G06F40/30 , G06F40/216 , G06F40/247 , G06F40/58 , G06F18/22
摘要: 本发明公开了一种筛选含义偏移子词的方法、装置和存储介质,其中筛选含义偏移子词的方法,通过共享子词统计出源领域和目标领域来源词组,通过比较源领域和目标领域来源词组来判定共享子词含义是否发生偏移,通过预训练语言模型对来源词组进行综合表示编码,利用余弦相似度量化来源词组间的相似度。有效的筛选出发生含义偏移的共享子词,优化目标领域子词表示,从而提高目标领域模型性能。