-
公开(公告)号:CN116186599A
公开(公告)日:2023-05-30
申请号:CN202211583475.9
申请日:2022-12-10
申请人: 中国人民解放军战略支援部队信息工程大学
IPC分类号: G06F18/241 , G06F18/25 , G06F18/214 , G06N20/00 , G06F18/22 , G06F40/289
摘要: 本发明公开一种基于对比学习和图学习的法案文本多标签分类方法及系统,包括:该方法以roBerta模型作为基础,在法案文本数据集上进行继续训练以适应法律文本特点;基于aprior算法挖掘标签中的频繁项集,为构造正负样例提供一种相似度衡量指标;基于微调后的roBerta模型及相似度衡量指标构造样例对,以进行对比学习;基于法案数据特点,结合外部数据构造异质图,并将微调后roBerta模型用于法案文本表示学习,作为异质图中相关节点的初始化表示;采用图神经网络技术完成节点表示学习;在此基础上实现法案与标签节点间边预测,完成法案文本多分类。本发明有效缓解小样本语料环境带来的模型训练难题且扩展性强。