发明公开
- 专利标题: 一种筛选含义偏移子词的方法、装置和存储介质
-
申请号: CN202310279284.1申请日: 2023-03-21
-
公开(公告)号: CN116306617A公开(公告)日: 2023-06-23
- 发明人: 黄书剑 , 申雨潼 , 戴新宇 , 张建兵 , 陈家骏
- 申请人: 南京大学
- 申请人地址: 江苏省南京市栖霞区仙林大道163号
- 专利权人: 南京大学
- 当前专利权人: 南京大学
- 当前专利权人地址: 江苏省南京市栖霞区仙林大道163号
- 代理机构: 苏州汇诚汇智专利代理事务所
- 代理商 张聪
- 主分类号: G06F40/284
- IPC分类号: G06F40/284 ; G06F40/30 ; G06F40/216 ; G06F40/247 ; G06F40/58 ; G06F18/22
摘要:
本发明公开了一种筛选含义偏移子词的方法、装置和存储介质,其中筛选含义偏移子词的方法,通过共享子词统计出源领域和目标领域来源词组,通过比较源领域和目标领域来源词组来判定共享子词含义是否发生偏移,通过预训练语言模型对来源词组进行综合表示编码,利用余弦相似度量化来源词组间的相似度。有效的筛选出发生含义偏移的共享子词,优化目标领域子词表示,从而提高目标领域模型性能。