-
公开(公告)号:CN116956214B
公开(公告)日:2024-10-18
申请号:CN202310834148.4
申请日:2023-07-07
申请人: 北京邮电大学
IPC分类号: G06F18/25 , G06F18/2132 , G06N3/082 , G06N3/098 , G06N3/045
摘要: 本发明提供了一种基于正则化集成学习的多模态细粒度论文分类方法和系统,所述方法包括:获取待分类论文的原始数据并从中提取所述待分类论文的文本数据和图像数据;将文本数据输入到第一预训练模型提取文本特征向量和文本特征向量矩阵;将图像数据输入到第二预训练模型提取图像特征向量和图像特征向量矩阵;进行Dropout正则化处理、拼接操作以得到第一特征融合向量;进行L1正则项系数和L2正则项系数结合的L1‑L2正则化处理、拼接以得到第二特征融合向量;输入到注意力机制模块以得到第三特征融合特征向量矩阵;输入到第三预训练模型以实现待分类论文的分类。本发明能够基于多模态注意力机制和多种不同的正则化方法大幅度提升细粒度论文分类的性能。
-
公开(公告)号:CN116956214A
公开(公告)日:2023-10-27
申请号:CN202310834148.4
申请日:2023-07-07
申请人: 北京邮电大学
IPC分类号: G06F18/25 , G06F18/2132 , G06N3/082 , G06N3/098 , G06N3/045
摘要: 本发明提供了一种基于正则化集成学习的多模态细粒度论文分类方法和系统,所述方法包括:获取待分类论文的原始数据并从中提取所述待分类论文的文本数据和图像数据;将文本数据输入到第一预训练模型提取文本特征向量和文本特征向量矩阵;将图像数据输入到第二预训练模型提取图像特征向量和图像特征向量矩阵;进行Dropout正则化处理、拼接操作以得到第一特征融合向量;进行L1正则项系数和L2正则项系数结合的L1‑L2正则化处理、拼接以得到第二特征融合向量;输入到注意力机制模块以得到第三特征融合特征向量矩阵;输入到第三预训练模型以实现待分类论文的分类。本发明能够基于多模态注意力机制和多种不同的正则化方法大幅度提升细粒度论文分类的性能。
-
公开(公告)号:CN115269855B
公开(公告)日:2023-01-03
申请号:CN202211198214.5
申请日:2022-09-29
申请人: 北京邮电大学
IPC分类号: G06F16/35 , G06F40/216 , G06F40/284 , G06F40/289 , G06N3/04 , G06N3/08
摘要: 本发明提供一种基于预训练编码器的论文细粒度化多标签标注方法及装置,该方法包括:获取待标注的文本数据,对文本数据进行预处理;基于TF‑IDF算法对预处理后的文本数据进行向量化处理,得到文本数据的表示向量,基于表示向量对预处理后的文本数据进行聚类,得到第一聚类结果,基于第一聚类结果及文本数据中的各特征词的TF‑IDF权重确定中心词;将预处理后的文本数据输入至训练好的深度学习网络模型中得到文本特征向量,基于文本特征向量对预处理后的文本数据进行聚类,得到第二聚类结果;基于中心词和第二聚类结果得到校对后的最终聚类结果,基于最终聚类结果对文本数据进行多标签标注。该方法及装置提高了论文细粒度化多标签标注的效率及准确度。
-
公开(公告)号:CN115269855A
公开(公告)日:2022-11-01
申请号:CN202211198214.5
申请日:2022-09-29
申请人: 北京邮电大学
IPC分类号: G06F16/35 , G06F40/216 , G06F40/284 , G06F40/289 , G06N3/04 , G06N3/08
摘要: 本发明提供一种基于预训练编码器的论文细粒度化多标签标注方法及装置,该方法包括:获取待标注的文本数据,对文本数据进行预处理;基于TF‑IDF算法对预处理后的文本数据进行向量化处理,得到文本数据的表示向量,基于表示向量对预处理后的文本数据进行聚类,得到第一聚类结果,基于第一聚类结果及文本数据中的各特征词的TF‑IDF权重确定中心词;将预处理后的文本数据输入至训练好的深度学习网络模型中得到文本特征向量,基于文本特征向量对预处理后的文本数据进行聚类,得到第二聚类结果;基于中心词和第二聚类结果得到校对后的最终聚类结果,基于最终聚类结果对文本数据进行多标签标注。该方法及装置提高了论文细粒度化多标签标注的效率及准确度。
-
-
-