一种语音语种类别的识别方法
    2.
    发明公开

    公开(公告)号:CN119479615A

    公开(公告)日:2025-02-18

    申请号:CN202411527944.4

    申请日:2024-10-30

    Abstract: 本发明涉及一种语音语种类别的识别方法,包括:提供目标语音音频,并将所述目标语音音频加载到预先构建的语种识别模型内,以利用所述语种识别模型对目标语音音频进行语种识别处理,其中,语种识别模型对目标语音音频进行语种识别处理时,至少包括依次执行的语音特征提取处理、语种嵌入提取处理以及识别分类处理,其中,执行语音特征提取处理后,基于目标语音音频生成对应的语音特征信息;执行语种嵌入提取处理后,基于语音特征信息生成对应的语种嵌入信息;执行识别分类处理后,将语种嵌入信息映射为表征目标语音音频对应语种的语种分类信息。本发明能对多语言语种的高效识别,提高了语种识别的准确性和识别效率。

    基于双解码器融合UNetFormer架构的双模态煤岩显微组分识别方法

    公开(公告)号:CN117789206B

    公开(公告)日:2025-01-28

    申请号:CN202410015924.2

    申请日:2024-01-05

    Abstract: 本发明公开了一种基于双解码器融合UNetFormer架构的双模态煤岩显微组分识别方法。该方法旨在准确识别煤岩中的显微组分,以指导其在工业中的高效利用。本发明结合荧光和反射光煤岩显微图像信息,提出了一种基于双解码器UNetFormer的端到端双模态语义分割方法,包括:分别采用ResNet18和Transformer结构作为基础网络的编码器和解码器;为改善显微组分边缘的分割结果,本发明为基础网络额外引入了边缘解码器,并设计了辅助损失函数以优化网络训练。实验结果表明,本发明所提出方法在显微组分语义分割方面取得了极佳的效果,平均交并比达到了75.07%,超过了煤岩显微组分识别领域其他任何识别方法。该双模态显微组分识别方法为煤岩质量预测和高效利用提供了宝贵的洞见。

    基于神经音频编解码器的语音合成方法

    公开(公告)号:CN118430508A

    公开(公告)日:2024-08-02

    申请号:CN202410677482.8

    申请日:2024-05-29

    Abstract: 本发明涉及一种基于神经音频编解码器的语音合成方法。其包括:将参考语音、待合成文本加载到预先构建的语音合成模型Zero‑TTS,语音预测编码器接收待合成文本,并对待合成文本进行语音预测,以在语音预测后生成文本‑语音预测编码,神经音频编解码器接收参考语音,在神经音频编解码器内,将文本‑语音预测编码以及目标说话人的说话人特征编码进行重构,以在重构后生成与目标说话人适配的目标语音。本发明能提高对目标说话人的语音合成质量,大大降低对目标说话人的数据以及模型微调的需求,实现了高效率、高质量、高保真地生成目标语音。

    基于跨模态融合和注意力机制的有机质显微组分鉴定方法

    公开(公告)号:CN117975448B

    公开(公告)日:2025-01-28

    申请号:CN202410015925.7

    申请日:2024-01-05

    Abstract: 本发明公开了一种基于跨模态融合和注意力机制的有机质显微组分鉴定方法,属于人工智能及地质领域。传统的有机质显微组分鉴定方法存在劳动强度大、主观性高、效率低等问题,限制了其在工业领域中的应用。本申请提出的自动化鉴定方法,将有机质显微图像中的组分识别任务转化为像素级分类问题。其核心技术包括:提出了CFA‑Unet模型,融合油浸反射光和荧光图像,实现了有机质显微组分像素级分类。引入跨模态融合方法,加强模态间特征信息交互,并采用加权注意力机制,减少组分误识别。实验证明,本申请中的CFA‑Unet模型取得了卓越性能,具有更强的分割性能、抗干扰能力和泛化性能。此技术的应用能够有效提高有机质资源质量评估的效率和精度。

    基于神经音频编解码器的语音合成方法

    公开(公告)号:CN118430508B

    公开(公告)日:2024-09-17

    申请号:CN202410677482.8

    申请日:2024-05-29

    Abstract: 本发明涉及一种基于神经音频编解码器的语音合成方法。其包括:将参考语音、待合成文本加载到预先构建的语音合成模型Zero‑TTS,语音预测编码器接收待合成文本,并对待合成文本进行语音预测,以在语音预测后生成文本‑语音预测编码,神经音频编解码器接收参考语音,在神经音频编解码器内,将文本‑语音预测编码以及目标说话人的说话人特征编码进行重构,以在重构后生成与目标说话人适配的目标语音。本发明能提高对目标说话人的语音合成质量,大大降低对目标说话人的数据以及模型微调的需求,实现了高效率、高质量、高保真地生成目标语音。

    基于双解码器融合UNetFormer架构的双模态煤岩显微组分识别方法

    公开(公告)号:CN117789206A

    公开(公告)日:2024-03-29

    申请号:CN202410015924.2

    申请日:2024-01-05

    Abstract: 本发明公开了一种基于双解码器融合UNetFormer架构的双模态煤岩显微组分识别方法。该方法旨在准确识别煤岩中的显微组分,以指导其在工业中的高效利用。本发明结合荧光和反射光煤岩显微图像信息,提出了一种基于双解码器UNetFormer的端到端双模态语义分割方法,包括:分别采用ResNet18和Transformer结构作为基础网络的编码器和解码器;为改善显微组分边缘的分割结果,本发明为基础网络额外引入了边缘解码器,并设计了辅助损失函数以优化网络训练。实验结果表明,本发明所提出方法在显微组分语义分割方面取得了极佳的效果,平均交并比达到了75.07%,超过了煤岩显微组分识别领域其他任何识别方法。该双模态显微组分识别方法为煤岩质量预测和高效利用提供了宝贵的洞见。

    基于跨模态融合和注意力机制的有机质显微组分鉴定方法

    公开(公告)号:CN117975448A

    公开(公告)日:2024-05-03

    申请号:CN202410015925.7

    申请日:2024-01-05

    Abstract: 本发明公开了一种基于跨模态融合和注意力机制的有机质显微组分鉴定方法,属于人工智能及地质领域。传统的有机质显微组分鉴定方法存在劳动强度大、主观性高、效率低等问题,限制了其在工业领域中的应用。本申请提出的自动化鉴定方法,将有机质显微图像中的组分识别任务转化为像素级分类问题。其核心技术包括:提出了CFA‑Unet模型,融合油浸反射光和荧光图像,实现了有机质显微组分像素级分类。引入跨模态融合方法,加强模态间特征信息交互,并采用加权注意力机制,减少组分误识别。实验证明,本申请中的CFA‑Unet模型取得了卓越性能,具有更强的分割性能、抗干扰能力和泛化性能。此技术的应用能够有效提高有机质资源质量评估的效率和精度。

Patent Agency Ranking