一种基于多源迁移学习的数据校验方法

    公开(公告)号:CN108549907B

    公开(公告)日:2021-11-16

    申请号:CN201810320808.6

    申请日:2018-04-11

    申请人: 武汉大学

    IPC分类号: G06K9/62 G06F17/16

    摘要: 本发明提出了一种基于多源迁移学习的数据校验方法。本发明的方法为提取源数据集以及目标训练集对应的站点业务数量并进行归一化;通过迁移学习模型SVR模型以及径向基函数构建基于权重的SVR模型;初始化源数据以及目标省份的站点权重并进行归一化,通过分别合并归一化源数据集、归一化目标训练数据集、归一化业务数据量训练集以及归一化业务数量得到合并训练集;将合并训练集以及归一化向量建立预测模型并计算模型误差参数;多次迭代并计算最终的预测模型;用最终的预测模型得到目标省份的预测站点业务数量,并对预测站点业务数量进行反归一化;与现有技术相比,本发明提高了数据质量,节约了数据资源。

    一种基于seq2seq+attention的中文文本纠错方法

    公开(公告)号:CN109614612A

    公开(公告)日:2019-04-12

    申请号:CN201811441697.0

    申请日:2018-11-29

    申请人: 武汉大学

    摘要: 本发明涉及一种基于seq2seq+attention的中文文本纠错方法,属于数据质量的研究范畴,涉及RNN,双向RNN,LSTM,seq2seq,attention机制等技术领域,主要针对通信设备检修记录,构建seq2seq+attention神经网络模型,采用Adam优化方法进行模型训练,利用已经训练好的模型进行纠错任务。本方法中所用到的神经网络模型可广泛应用于其他领域的文本纠错,在一定程度上避免了模型的重新设计。

    一种基于多源迁移学习的数据校验方法

    公开(公告)号:CN108549907A

    公开(公告)日:2018-09-18

    申请号:CN201810320808.6

    申请日:2018-04-11

    申请人: 武汉大学

    IPC分类号: G06K9/62 G06F17/16

    摘要: 本发明提出了一种基于多源迁移学习的数据校验方法。本发明的方法为提取源数据集以及目标训练集对应的站点业务数量并进行归一化;通过迁移学习模型SVR模型以及径向基函数构建基于权重的SVR模型;初始化源数据以及目标省份的站点权重并进行归一化,通过分别合并归一化源数据集、归一化目标训练数据集、归一化业务数据量训练集以及归一化业务数量得到合并训练集;将合并训练集以及归一化向量建立预测模型并计算模型误差参数;多次迭代并计算最终的预测模型;用最终的预测模型得到目标省份的预测站点业务数量,并对预测站点业务数量进行反归一化;与现有技术相比,本发明提高了数据质量,节约了数据资源。