-
公开(公告)号:CN116072127A
公开(公告)日:2023-05-05
申请号:CN202211733131.1
申请日:2022-12-30
Applicant: 国网浙江省电力有限公司营销服务中心 , 浙江大学
Abstract: 本发明公开了一种基于最大池化自注意力机制的声纹识别方法及系统。本发明的方法包含如下步骤:提取音频特征序列;使用卷积神经网络对音频特征序列进行降采样处理;使用基于最大池化自注意力机制的Transformer编码器进行训练;对Tranformer编码器的输出进行正则化;使用统计注意力聚合的方法提取说话人声纹编码;使用角度原型损失函数最小化训练损失。相比于传统Transformer进行声纹识别,本发明对Transformer的自注意力机制做了改进,在相似度矩阵中引入最大池化操作,提高自注意力机制对局部信息的建模能力;本发明较原始Transformer更适合进行声纹识别,准确率更高。
-
公开(公告)号:CN116128334A
公开(公告)日:2023-05-16
申请号:CN202211572850.X
申请日:2022-12-08
Applicant: 国网浙江省电力有限公司营销服务中心 , 浙江大学
IPC: G06Q10/0639 , G06N20/00
Abstract: 本发明公开了一种质检任务调度方法,涉及骨传质检技术领域,用于解决现有缺少调度算法的问题,该方法包括以下步骤:S1、初始化模型训练参数,所述模型为强化学习模型;S2、构建调度状态特征;S3、根据当前调度状态输出对应动作,并对所述调度状态进行解码得到所述动作对应的样本及设备;S4、计算奖励值并更新所述训练参数;S5、判断调度任务是否完成:当所述调度任务完成且达到训练步数时,训练结束,否则返回步骤S2;当所述调度任务未完成时,进入下一调度状态并返回步骤S2。本发明还公开了一种质检任务调度电子设备和计算机存储介质。本发明基于强化学习进行建模,进而得到效果好的调度模型。
-
公开(公告)号:CN115293400A
公开(公告)日:2022-11-04
申请号:CN202210718685.8
申请日:2022-06-23
Applicant: 国网浙江省电力有限公司营销服务中心 , 浙江大学
Abstract: 本发明公开了一种电力系统负荷预测方法和系统。本发明预测方法包括:以用电企业为单位,对企业用电数据集以给定的采样时间窗口进行滑动采样;将滑动采样后的数据集划分为训练集和测试集,构成GA‑CNN‑LSTM模型的输入;构建GA‑CNN‑LSTM模型;构建基于GA遗传算法的调参策略;将训练集输入GA‑CNN‑LSTM模型,在GPU上进行模型调参,获得最优参数;将训练集输入GA‑CNN‑LSTM模型,使用最优参数,在GPU上进行模型训练;将训练集输入GA‑CNN‑LSTM模型,在测试集上进行预测,获得最终预测结果;使用均方误差MSE、平均绝对误差RMSE、决定系数R2_Score和均方根误差MAE指标评估模型的效果。本发明能得到更可靠的数据集划分方式及能稳定、精确地挖掘电力负荷序列长期依赖关系,有效解决电力负荷预测技术难题。
-
公开(公告)号:CN115758761A
公开(公告)日:2023-03-07
申请号:CN202211480861.5
申请日:2022-11-24
Applicant: 国网浙江省电力有限公司营销服务中心 , 浙江大学
IPC: G06F30/20 , G06F9/48 , G06N3/126 , G06F111/06 , G06F111/04
Abstract: 本发明公开了一种基于遗传算法的质检任务调度方法,涉及遗传算法技术领域,用于解决完成质检任务调度策略制定,该方法包括以下步骤:根据质检任务调度中检测试验串行、并行、互斥关系以及设备互斥关系的情境构建质检任务调度模型;通过领域搜索规则和启发式规则对所述任务调度模型进行解码,并结合模拟退火算法对所述任务调度模型进行求解;得到最优质检任务调度方案。本发明还公开了一种基于遗传算法的质检任务调度的电子设备和计算机存储介质。本发明通过质检任务调度中检测试验串行、并行、互斥关系以及设备互斥关系的情境构建质检任务调度模型,并进行模型求解,进而得到调度方案最优解。
-
公开(公告)号:CN114974206A
公开(公告)日:2022-08-30
申请号:CN202210677656.1
申请日:2022-06-15
Applicant: 浙江大学 , 杭州一知智能科技有限公司
Abstract: 本发明公开了一种无约束唇语到语音合成方法、系统和存储介质,属于语音合成领域。通过视觉编码器从唇语视频序列中提取并编码得到视觉特征向量;将视觉特征向量的长度调整至对应音频内容的长度,得到与对应音频内容对齐后的视觉特征向量;通过声学编码器将对齐后的视觉特征向量转换成对应的声学特征向量;根据声学特征向量生成对应的梅尔频谱,结合真实的梅尔频谱对所述的视觉编码器和声学编码器进行训练;固定视觉编码器和声学编码器的参数,训练音频生成器,利用训练好的音频生成器将声学特征向量合成音频波形,转化为预测音频。本发明可以直接在无约束的视频上以更快地的推理速度合成更高质量的语音。
-
公开(公告)号:CN114973227A
公开(公告)日:2022-08-30
申请号:CN202210571707.2
申请日:2022-05-24
Applicant: 浙江大学 , 杭州一知智能科技有限公司
Abstract: 本发明公开了一种用于领域可泛化文本识别的序列风格一致性学习方法和系统,属于文本识别领域。包括:1、提取图片特征序列;2、对提取的图片特征序列进行数据增强处理;3、对初始特征序列和增强特征序列进行解耦处理并进行熵损失优化;4、通过风格一致性学习来减小风格相关特征和任务特征之间的相关性,优化对比学习损失;5、模型预测阶段仅使用任务相关序列特征进行预测。相比于现有的传统方法,本发明首次针对文本识别任务提出了领域可泛化的方法,填补了该项技术的空白,并实现了比当前最先进的领域泛化模型更好的性能。
-
公开(公告)号:CN114973227B
公开(公告)日:2025-02-11
申请号:CN202210571707.2
申请日:2022-05-24
Applicant: 浙江大学 , 杭州一知智能科技有限公司
IPC: G06V20/62 , G06V30/18 , G06N3/0499 , G06N3/0895
Abstract: 本发明公开了一种用于领域可泛化文本识别的序列风格一致性学习方法和系统,属于文本识别领域。包括:1、提取图片特征序列;2、对提取的图片特征序列进行数据增强处理;3、对初始特征序列和增强特征序列进行解耦处理并进行熵损失优化;4、通过风格一致性学习来减小风格相关特征和任务特征之间的相关性,优化对比学习损失;5、模型预测阶段仅使用任务相关序列特征进行预测。相比于现有的传统方法,本发明首次针对文本识别任务提出了领域可泛化的方法,填补了该项技术的空白,并实现了比当前最先进的领域泛化模型更好的性能。
-
公开(公告)号:CN116631375A
公开(公告)日:2023-08-22
申请号:CN202310733281.0
申请日:2023-06-20
Applicant: 浙江大学
Abstract: 本发明公开了一种基于自监督语音表征的方言分类方法,属于语音识别领域。获取不同方言的音频样本,提取原始波形序列;使用预训练模型进一步提取语音表征序列并降采样,得到帧级别输入序列;使用Transformer编码器对帧级别输入序列进行编码;使用注意力聚合方法将编码结果进行池化统计,得到句子级别编码序列;对句子级别编码序列线性投影,得到样本预测概率;训练Transformer编码器、以及注意力聚合方法和线性投影中的可训练参数,基于训练后的参数预测音频中的方言类型。本发明使用自监督语音表征作为输入特征并在Transformer中引入基于内容的自注意力机制来提取音频的全局和局部信息,提高了分类准确率。
-
公开(公告)号:CN115035455A
公开(公告)日:2022-09-09
申请号:CN202210707517.9
申请日:2022-06-21
Applicant: 浙江大学 , 杭州一知智能科技有限公司
Abstract: 本发明公开了一种基于对抗多模态领域自适应的跨类别视频时间定位方法、系统和存储介质,属于计算机视觉领域。获取不同类别视频及对应的查询文本,提取视觉特征和文本特征;通过跨模态特征校准器目标类别视频的视觉特征和文本特征进行语义信息校准;通过视频特征重构器对目标类别视频的视觉特征随机掩码并进行视觉特征重构;通过跨模态特征融合器对视频特征和文本特征进行融合;通过领域鉴别器对视频特征和文本特征进行单模态领域不变性特征表达学习,以及对初始融合特征进行跨模态领域不变性特征表达学习;通过双仿射预测器对源类别视频的最终融合特征进行预测。本发明实现了针对跨类别视频的时间定位,提高了模型应对未知目标视频的泛化能力。
-
-
-
-
-
-
-
-