基于混合样本空间的不平衡化工文本数据增强方法及装置

    公开(公告)号:CN115455177B

    公开(公告)日:2023-07-21

    申请号:CN202210920360.8

    申请日:2022-08-02

    申请人: 淮阴工学院

    摘要: 本发明公开一种基于混合样本空间的不平衡化工文本数据增强方法及装置,首先按预设规则从语料集中获得两个一级标签不同的化工文本样本,将两个样本依次输入动态词向量编码器中,获得文本样本对输出动态词向量;将两个样本根据预设静态词向量生成模型依次获得对应的静态词向量,然后对上述词向量分别展开样本自插值混合;然后随机选择与文本样本位于同一大类样本空间下属不同小样本类别空间中的文本样本生成的词向量与自插值得到的词向量展开层次样本空间插值,输出获得数据增强后的词向量,应用于下游分类任务中。本发明利用多标签数据同一层级类别之间样本的依赖关系,降低小样本所属类别分类难度,进而有效提升不平衡样本数据分类精度。

    一种基于词汇投影混合标签学习的文本分类方法

    公开(公告)号:CN116304027A

    公开(公告)日:2023-06-23

    申请号:CN202310139656.0

    申请日:2023-02-20

    申请人: 淮阴工学院

    摘要: 本发明公开了一种基于词汇投影混合标签学习的文本分类方法,该方法首先基于所有样本的标签和文本使用TF‑IDF和注意力结合建了标签的特征词词汇表丰富标签信息,并进行投影提纯保留每个标签之间的独立性;再使用语义学习模型对样本模型进行语义信息的学习;接着在one‑hot编码的基础上,使用语义信息和标签特征词词汇表建立样本文本和各个标签之间的混合学习,得到混合学习标签;最后在输出层对语义信息进行分类,并计算其和混合学习标签之间的KL散度作为最后的交叉熵损失;由于标签混合学习模型不参与语义学习模型和分类的过程中,因此,对模型分类的性能没有影响,并且语义学习模型中的特征提取器可以换成任意模型,有较高的自由度和灵活度。

    基于Gate-Mixup数据增强的知识蒸馏化工文本分类方法及装置

    公开(公告)号:CN115481249A

    公开(公告)日:2022-12-16

    申请号:CN202211156215.3

    申请日:2022-09-22

    申请人: 淮阴工学院

    IPC分类号: G06F16/35 G06N3/04 G06N3/08

    摘要: 本发明公开一种基于Gate‑Mixup数据增强的知识蒸馏化工文本分类方法及装置,首先同时对图神经网络教师模型以及Transformer学生模型进行初始训练;然后进行一阶段蒸馏训练,通过指标函数与门控单元对教师模型输出进行筛选,满足预设条件,则直接作为logits输入蒸馏损失函数指导学生模型,否则对文本表示进行数据增强,最后将输出残差叠加输入蒸馏损失函数指导学生模型训练;将教师模型与学生模型角色进行对调作为二阶段蒸馏训练,循环执行上述一阶段和二阶段蒸馏训练,最终获得蒸馏好的学生模型;实际应用时,将化工文本样本输入学生模型,获得预测输出文本类别。本发明通过构建的数据增强方法有效增强相互学习困难样本知识蒸馏效果,提升学生模型文本分类性能。

    基于混合样本空间的不平衡化工文本数据增强方法及装置

    公开(公告)号:CN115455177A

    公开(公告)日:2022-12-09

    申请号:CN202210920360.8

    申请日:2022-08-02

    申请人: 淮阴工学院

    摘要: 本发明公开一种基于混合样本空间的不平衡化工文本数据增强方法及装置,首先按预设规则从语料集中获得两个一级标签不同的化工文本样本,将两个样本依次输入动态词向量编码器中,获得文本样本对输出动态词向量;将两个样本根据预设静态词向量生成模型依次获得对应的静态词向量,然后对上述词向量分别展开样本自插值混合;然后随机选择与文本样本位于同一大类样本空间下属不同小样本类别空间中的文本样本生成的词向量与自插值得到的词向量展开层次样本空间插值,输出获得数据增强后的词向量,应用于下游分类任务中。本发明利用多标签数据同一层级类别之间样本的依赖关系,降低小样本所属类别分类难度,进而有效提升不平衡样本数据分类精度。