基于正则化集成学习的多模态细粒度论文分类方法和系统

    公开(公告)号:CN116956214B

    公开(公告)日:2024-10-18

    申请号:CN202310834148.4

    申请日:2023-07-07

    摘要: 本发明提供了一种基于正则化集成学习的多模态细粒度论文分类方法和系统,所述方法包括:获取待分类论文的原始数据并从中提取所述待分类论文的文本数据和图像数据;将文本数据输入到第一预训练模型提取文本特征向量和文本特征向量矩阵;将图像数据输入到第二预训练模型提取图像特征向量和图像特征向量矩阵;进行Dropout正则化处理、拼接操作以得到第一特征融合向量;进行L1正则项系数和L2正则项系数结合的L1‑L2正则化处理、拼接以得到第二特征融合向量;输入到注意力机制模块以得到第三特征融合特征向量矩阵;输入到第三预训练模型以实现待分类论文的分类。本发明能够基于多模态注意力机制和多种不同的正则化方法大幅度提升细粒度论文分类的性能。

    基于多模态分层融合网络的细粒度化论文分类方法及装置

    公开(公告)号:CN113961710B

    公开(公告)日:2022-03-08

    申请号:CN202111567384.1

    申请日:2021-12-21

    摘要: 本发明提供一种基于多模态分层融合网络的细粒度化论文分类方法及装置,该分类方法包括:获取待分类论文的原始数据,并从获取到的原始数据中提取所述待分类论文的标题、摘要及图像,对提取到的所述标题、摘要以及图像进行数据预处理;其中,数据预处理包括数据增广;将提取到的标题输入至第一预训练模型以进行特征提取,并生成标题文本向量,将标题文本向量嵌入至图像,生成第一融合图像;将生成的第一融合图像输入至第二预训练模型进行特征提取,生成第一融合向量;将提取到的摘要输入至第三预训练模型以进行特征提取,生成摘要文本向量,将摘要文本向量与第一融合向量进行向量融合,得到融合特征向量;基于融合特征向量对待分类论文进行分类。

    保险行业文档智能化解析方法和装置

    公开(公告)号:CN112307741A

    公开(公告)日:2021-02-02

    申请号:CN202011621201.5

    申请日:2020-12-31

    发明人: 岳潭 胡宗海

    摘要: 本发明提供一种保险行业文档智能化解析方法和装置。该方法包括:将PDF格式的原数据转化为CSV格式的数据,CSV格式的数据包含预定的文档文本识别特征维度;对转化后的CSV格式的数据进行数据清洗处理;基于文本位置对文本特征进行上下文语义信息的捕捉,进行特征维度扩充;对要作为训练样本利用多个类别进行标注获得训练样本集,多个类别包括正文内容和多个不同级别的标题类别;从训练样本集中选取训练集,利用训练集对随机森林算法进行训练,利用训练后的随机森林算法对测试样本进行类别分类,得到测试样本数据特征的类别分类结果;基于类别分类结果对文档内容进行重组,生成结构化文件输出,并对文档中重要的属性进行抽取。

    基于正则化集成学习的多模态细粒度论文分类方法和系统

    公开(公告)号:CN116956214A

    公开(公告)日:2023-10-27

    申请号:CN202310834148.4

    申请日:2023-07-07

    摘要: 本发明提供了一种基于正则化集成学习的多模态细粒度论文分类方法和系统,所述方法包括:获取待分类论文的原始数据并从中提取所述待分类论文的文本数据和图像数据;将文本数据输入到第一预训练模型提取文本特征向量和文本特征向量矩阵;将图像数据输入到第二预训练模型提取图像特征向量和图像特征向量矩阵;进行Dropout正则化处理、拼接操作以得到第一特征融合向量;进行L1正则项系数和L2正则项系数结合的L1‑L2正则化处理、拼接以得到第二特征融合向量;输入到注意力机制模块以得到第三特征融合特征向量矩阵;输入到第三预训练模型以实现待分类论文的分类。本发明能够基于多模态注意力机制和多种不同的正则化方法大幅度提升细粒度论文分类的性能。

    基于多模态分层融合网络的细粒度化论文分类方法及装置

    公开(公告)号:CN113961710A

    公开(公告)日:2022-01-21

    申请号:CN202111567384.1

    申请日:2021-12-21

    摘要: 本发明提供一种基于多模态分层融合网络的细粒度化论文分类方法及装置,该分类方法包括:获取待分类论文的原始数据,并从获取到的原始数据中提取所述待分类论文的标题、摘要及图像,对提取到的所述标题、摘要以及图像进行数据预处理;其中,数据预处理包括数据增广;将提取到的标题输入至第一预训练模型以进行特征提取,并生成标题文本向量,将标题文本向量嵌入至图像,生成第一融合图像;将生成的第一融合图像输入至第二预训练模型进行特征提取,生成第一融合向量;将提取到的摘要输入至第三预训练模型以进行特征提取,生成摘要文本向量,将摘要文本向量与第一融合向量进行向量融合,得到融合特征向量;基于融合特征向量对待分类论文进行分类。

    贝塞尔光束发射器及贝塞尔光束发射器的制作方法

    公开(公告)号:CN113381293A

    公开(公告)日:2021-09-10

    申请号:CN202110453120.7

    申请日:2021-04-26

    摘要: 本公开实施例提供了一种贝塞尔光束发射器及贝塞尔光束发射器的制作方法,该贝塞尔光束发射器包括:有源层,有源层包括用于产生光束的发光子层;上分布反射镜层,上分布反射镜层位于有源层的一侧,上分布反射镜层包括偶数数量个第一折射率子层;下分布反射镜层,下分布反射镜层位于有源层的另一侧,下分布反射镜层包括偶数数量个第二折射率子层,第一折射率子层的数量小于第二折射率子层的数量;欧姆接触层,欧姆接触层位于上分布反射镜层的远离有源层的一侧,欧姆接触层用于连接电极;光束转换层,光束转换层位于欧姆接触层远离上分布反射镜层的一侧,有源层产生的光束能够进入光束转换层,光束转换层能够对光束进行转换得到贝塞尔光束。

    基于预训练编码器的论文细粒度化多标签标注方法及装置

    公开(公告)号:CN115269855B

    公开(公告)日:2023-01-03

    申请号:CN202211198214.5

    申请日:2022-09-29

    摘要: 本发明提供一种基于预训练编码器的论文细粒度化多标签标注方法及装置,该方法包括:获取待标注的文本数据,对文本数据进行预处理;基于TF‑IDF算法对预处理后的文本数据进行向量化处理,得到文本数据的表示向量,基于表示向量对预处理后的文本数据进行聚类,得到第一聚类结果,基于第一聚类结果及文本数据中的各特征词的TF‑IDF权重确定中心词;将预处理后的文本数据输入至训练好的深度学习网络模型中得到文本特征向量,基于文本特征向量对预处理后的文本数据进行聚类,得到第二聚类结果;基于中心词和第二聚类结果得到校对后的最终聚类结果,基于最终聚类结果对文本数据进行多标签标注。该方法及装置提高了论文细粒度化多标签标注的效率及准确度。

    基于预训练编码器的论文细粒度化多标签标注方法及装置

    公开(公告)号:CN115269855A

    公开(公告)日:2022-11-01

    申请号:CN202211198214.5

    申请日:2022-09-29

    摘要: 本发明提供一种基于预训练编码器的论文细粒度化多标签标注方法及装置,该方法包括:获取待标注的文本数据,对文本数据进行预处理;基于TF‑IDF算法对预处理后的文本数据进行向量化处理,得到文本数据的表示向量,基于表示向量对预处理后的文本数据进行聚类,得到第一聚类结果,基于第一聚类结果及文本数据中的各特征词的TF‑IDF权重确定中心词;将预处理后的文本数据输入至训练好的深度学习网络模型中得到文本特征向量,基于文本特征向量对预处理后的文本数据进行聚类,得到第二聚类结果;基于中心词和第二聚类结果得到校对后的最终聚类结果,基于最终聚类结果对文本数据进行多标签标注。该方法及装置提高了论文细粒度化多标签标注的效率及准确度。

    贝塞尔光束发射器及贝塞尔光束发射器的制作方法

    公开(公告)号:CN113381293B

    公开(公告)日:2022-08-16

    申请号:CN202110453120.7

    申请日:2021-04-26

    摘要: 本公开实施例提供了一种贝塞尔光束发射器及贝塞尔光束发射器的制作方法,该贝塞尔光束发射器包括:有源层,有源层包括用于产生光束的发光子层;上分布反射镜层,上分布反射镜层位于有源层的一侧,上分布反射镜层包括偶数数量个第一折射率子层;下分布反射镜层,下分布反射镜层位于有源层的另一侧,下分布反射镜层包括偶数数量个第二折射率子层,第一折射率子层的数量小于第二折射率子层的数量;欧姆接触层,欧姆接触层位于上分布反射镜层的远离有源层的一侧,欧姆接触层用于连接电极;光束转换层,光束转换层位于欧姆接触层远离上分布反射镜层的一侧,有源层产生的光束能够进入光束转换层,光束转换层能够对光束进行转换得到贝塞尔光束。

    保险行业文档智能化解析方法和装置

    公开(公告)号:CN112307741B

    公开(公告)日:2021-03-30

    申请号:CN202011621201.5

    申请日:2020-12-31

    发明人: 岳潭 胡宗海

    摘要: 本发明提供一种保险行业文档智能化解析方法和装置。该方法包括:将PDF格式的原数据转化为CSV格式的数据,CSV格式的数据包含预定的文档文本识别特征维度;对转化后的CSV格式的数据进行数据清洗处理;基于文本位置对文本特征进行上下文语义信息的捕捉,进行特征维度扩充;对要作为训练样本利用多个类别进行标注获得训练样本集,多个类别包括正文内容和多个不同级别的标题类别;从训练样本集中选取训练集,利用训练集对随机森林算法进行训练,利用训练后的随机森林算法对测试样本进行类别分类,得到测试样本数据特征的类别分类结果;基于类别分类结果对文档内容进行重组,生成结构化文件输出,并对文档中重要的属性进行抽取。