一种无约束唇语到语音合成方法、系统和存储介质

    公开(公告)号:CN114974206A

    公开(公告)日:2022-08-30

    申请号:CN202210677656.1

    申请日:2022-06-15

    Abstract: 本发明公开了一种无约束唇语到语音合成方法、系统和存储介质,属于语音合成领域。通过视觉编码器从唇语视频序列中提取并编码得到视觉特征向量;将视觉特征向量的长度调整至对应音频内容的长度,得到与对应音频内容对齐后的视觉特征向量;通过声学编码器将对齐后的视觉特征向量转换成对应的声学特征向量;根据声学特征向量生成对应的梅尔频谱,结合真实的梅尔频谱对所述的视觉编码器和声学编码器进行训练;固定视觉编码器和声学编码器的参数,训练音频生成器,利用训练好的音频生成器将声学特征向量合成音频波形,转化为预测音频。本发明可以直接在无约束的视频上以更快地的推理速度合成更高质量的语音。

    一种用于领域可泛化文本识别的序列风格一致性学习方法和系统

    公开(公告)号:CN114973227A

    公开(公告)日:2022-08-30

    申请号:CN202210571707.2

    申请日:2022-05-24

    Abstract: 本发明公开了一种用于领域可泛化文本识别的序列风格一致性学习方法和系统,属于文本识别领域。包括:1、提取图片特征序列;2、对提取的图片特征序列进行数据增强处理;3、对初始特征序列和增强特征序列进行解耦处理并进行熵损失优化;4、通过风格一致性学习来减小风格相关特征和任务特征之间的相关性,优化对比学习损失;5、模型预测阶段仅使用任务相关序列特征进行预测。相比于现有的传统方法,本发明首次针对文本识别任务提出了领域可泛化的方法,填补了该项技术的空白,并实现了比当前最先进的领域泛化模型更好的性能。

    一种用于领域可泛化文本识别的序列风格一致性学习方法和系统

    公开(公告)号:CN114973227B

    公开(公告)日:2025-02-11

    申请号:CN202210571707.2

    申请日:2022-05-24

    Abstract: 本发明公开了一种用于领域可泛化文本识别的序列风格一致性学习方法和系统,属于文本识别领域。包括:1、提取图片特征序列;2、对提取的图片特征序列进行数据增强处理;3、对初始特征序列和增强特征序列进行解耦处理并进行熵损失优化;4、通过风格一致性学习来减小风格相关特征和任务特征之间的相关性,优化对比学习损失;5、模型预测阶段仅使用任务相关序列特征进行预测。相比于现有的传统方法,本发明首次针对文本识别任务提出了领域可泛化的方法,填补了该项技术的空白,并实现了比当前最先进的领域泛化模型更好的性能。

    一种基于自监督语音表征的方言分类方法和系统

    公开(公告)号:CN116631375A

    公开(公告)日:2023-08-22

    申请号:CN202310733281.0

    申请日:2023-06-20

    Applicant: 浙江大学

    Abstract: 本发明公开了一种基于自监督语音表征的方言分类方法,属于语音识别领域。获取不同方言的音频样本,提取原始波形序列;使用预训练模型进一步提取语音表征序列并降采样,得到帧级别输入序列;使用Transformer编码器对帧级别输入序列进行编码;使用注意力聚合方法将编码结果进行池化统计,得到句子级别编码序列;对句子级别编码序列线性投影,得到样本预测概率;训练Transformer编码器、以及注意力聚合方法和线性投影中的可训练参数,基于训练后的参数预测音频中的方言类型。本发明使用自监督语音表征作为输入特征并在Transformer中引入基于内容的自注意力机制来提取音频的全局和局部信息,提高了分类准确率。

    一种基于对抗多模态领域自适应的跨类别视频时间定位方法、系统和存储介质

    公开(公告)号:CN115035455A

    公开(公告)日:2022-09-09

    申请号:CN202210707517.9

    申请日:2022-06-21

    Abstract: 本发明公开了一种基于对抗多模态领域自适应的跨类别视频时间定位方法、系统和存储介质,属于计算机视觉领域。获取不同类别视频及对应的查询文本,提取视觉特征和文本特征;通过跨模态特征校准器目标类别视频的视觉特征和文本特征进行语义信息校准;通过视频特征重构器对目标类别视频的视觉特征随机掩码并进行视觉特征重构;通过跨模态特征融合器对视频特征和文本特征进行融合;通过领域鉴别器对视频特征和文本特征进行单模态领域不变性特征表达学习,以及对初始融合特征进行跨模态领域不变性特征表达学习;通过双仿射预测器对源类别视频的最终融合特征进行预测。本发明实现了针对跨类别视频的时间定位,提高了模型应对未知目标视频的泛化能力。

Patent Agency Ranking