多语种语音识别模型训练方法及相关装置

    公开(公告)号:CN119694302A

    公开(公告)日:2025-03-25

    申请号:CN202411769405.1

    申请日:2024-12-04

    Abstract: 本申请公开了一种多语种语音识别模型训练方法及相关装置,涉及语音识别技术领域,包括:预先构建包含第一训练分支和第二训练分支的多语种语音识别模型训练模型,其中,第一训练分支和第二训练分支均由编码器和解码器组成,第一训练分支和第二训练分支共用解码器和部分编码器;通过语音文本有监督训练数据以及纯文本训练数据,对第一训练分支和第二训练分支进行多任务联合训练,得到训练好的第一训练分支作为多语种语音识别模型。该方案能够降低模型训练的计算开销,提高训练数据的利用率,从而在有效降低训练周期和减少有监督训练数据的情况下,训练得到一个高效、准确的多语种语音识别模型,进而提升多语种语音识别的效果。

    一种语音识别方法及相关装置、设备和存储介质

    公开(公告)号:CN119541495A

    公开(公告)日:2025-02-28

    申请号:CN202411461438.X

    申请日:2024-10-18

    Abstract: 本申请公开了一种语音识别方法及相关装置、设备和存储介质,语音识别方法包括:获取当前轮次的第一解码特征;其中,当前轮次的第一解码特征包含上一轮次所输出解码字符的特征信息;获取待识别语音中各个语音帧的编码特征分别与第一解码特征之间的对齐概率,并基于对齐概率选择至少部分语音帧的编码特征与第一解码特征进行融合,得到第二解码特征;基于第二解码特征进行解码,得到当前轮次所输出的解码字符,并返回获取当前轮次的第一解码特征的步骤进行迭代,直至最新输出的解码字符表征语音识别结束为止,基于各个轮次的解码字符,得到待识别语音的识别文本。上述方案,能够提升语音识别的效率和准确性,特别是流式语音识别的效率和准确性。

    一种标签信息确定方法及其相关设备

    公开(公告)号:CN113947145A

    公开(公告)日:2022-01-18

    申请号:CN202111204240.X

    申请日:2021-10-15

    Abstract: 本申请公开了一种标签信息确定方法及其相关设备,该方法包括:先获取待标注数据;再在确定用户触发预设操作过程之后,将该待标注数据发送给该用户,以便在获取到该用户针对该待标注数据输入的用户识别信息之后,根据该用户识别信息,确定待标注数据的标签信息,如此能够实现自动确定标签信息的目的。可见,因上述“待标注数据的标签信息”是借助预设操作过程中所涉及的用户输入数据进行确定的,使得该“待标注数据的标签信息”属于预设操作过程的附加产物,如此能够有效地降低标签信息的获取成本。

    一种语音识别方法、装置、设备及存储介质

    公开(公告)号:CN116343764B

    公开(公告)日:2025-01-24

    申请号:CN202211311416.6

    申请日:2022-10-25

    Abstract: 本申请实施例中公开了一种语音识别方法、装置、设备及存储介质。其中,该方法包括:接收待识别语音信息;获取待识别语音信息对应的语种信息;根据语种信息确定语音识别模型包括的编码器中对应的语种残差模块;利用语种残差模块对待识别语音信息进行识别,得到初步识别结果;将初步识别结果输入语音识别模型包括的解码器进行识别,得到语音识别结果。可见,本申请实施例中根据语种信息能确定特定的语种残差模块对待识别语音信息进行识别,从而使得语音识别更具针对性,能更好地提升编码器对多语种信息的区分能力与提取能力,进而能提高语音识别准确性。

    一种语音识别方法、装置、设备及存储介质

    公开(公告)号:CN116343764A

    公开(公告)日:2023-06-27

    申请号:CN202211311416.6

    申请日:2022-10-25

    Abstract: 本申请实施例中公开了一种语音识别方法、装置、设备及存储介质。其中,该方法包括:接收待识别语音信息;获取待识别语音信息对应的语种信息;根据语种信息确定语音识别模型包括的编码器中对应的语种残差模块;利用语种残差模块对待识别语音信息进行识别,得到初步识别结果;将初步识别结果输入语音识别模型包括的解码器进行识别,得到语音识别结果。可见,本申请实施例中根据语种信息能确定特定的语种残差模块对待识别语音信息进行识别,从而使得语音识别更具针对性,能更好地提升编码器对多语种信息的区分能力与提取能力,进而能提高语音识别准确性。

    流式语音交互方法及相关装置、设备和存储介质

    公开(公告)号:CN119694304A

    公开(公告)日:2025-03-25

    申请号:CN202510202865.4

    申请日:2025-02-24

    Abstract: 本申请公开了一种流式语音交互方法及相关装置、设备和存储介质,其中,流式语音交互方法包括:基于当前采集的第一流式语音进行第一分类,得到第一流式语音的第一预测类别;响应于第一预测类别为人声,至少基于第一流式语音进行第二分类,得到第一流式语音的第二预测类别;响应于第二预测类别为真实人声,至少基于第一流式语音进行第三分类,得到第一流式语音的第三预测类别;基于第三预测类别,对当前正在输出的机器对话内容执行目标交互操作。上述方案,能够尽可能地减少流式语音的误触发,提升流式语音交互的准确性。

    流式语音交互方法及相关装置、设备和存储介质

    公开(公告)号:CN119479620A

    公开(公告)日:2025-02-18

    申请号:CN202510026410.1

    申请日:2025-01-08

    Abstract: 本申请公开了一种流式语音交互方法及相关装置、设备和存储介质,其中,流式语音交互方法包括:对流式语音进行端点检测,并响应于检测到流式语音的起始端点,对流式语音执行滑窗操作,得到语音帧,基于语音帧进行特征提取,得到语音帧的语音特征;输入语音帧的语音特征至用于识别流式语音的语音识别系统,得到语音帧的识别结果,基于语音帧的编码特征进行分类预测,得到语音帧的分类结果;响应于分类结果表征语义结束,基于从起始端点至结束端点各个语音帧的识别结果,得到识别文本,至少基于识别文本由智能对话模型进行处理,生成得到回复文本;响应于分类结果表征语义未结束,继续返回执行滑窗操作。上述方案,能够提升流式语音交互的适时性。

    方言语音识别方法、装置、设备及存储介质

    公开(公告)号:CN115240640B

    公开(公告)日:2025-02-11

    申请号:CN202210852125.1

    申请日:2022-07-20

    Abstract: 本申请公开了一种方言语音识别方法、装置、设备及存储介质,本申请预先配置了方言语音识别模型,该模型为,以各类型语言(包括普通话及各类型方言)的语音样本作为训练样本,以该训练样本的识别文本经句法分析及phone级标注后的携带有句法信息的phone级标注文本作为标签训练得到,相比于现有的字级端到端模型,本申请基于音素phone级进行建模,从发音层面实现了提高各类型方言之间以及方言与普通话之间建模单元的区分性、并减少各方言之间串扰度,从而提升各方言的识别效果。进一步地,在标注上引入了句法信息,能够让模型学习到各方言的语法层面的信息,进一步提升各方言的识别效果,此外,由于添加了语法信息,还可以提升模型识别文本的可阅读性。

    一种文本分割方法、装置、设备及存储介质

    公开(公告)号:CN112686018B

    公开(公告)日:2024-08-23

    申请号:CN202011545165.9

    申请日:2020-12-23

    Abstract: 本申请提供了一种文本分割方法、装置、设备及存储介质,其中,方法包括:获取目标说话人的目标语音的识别文本,作为待分割的目标文本;根据目标语音和目标文本,获取目标说话人的语音停顿特征,其中,目标说话人的语音停顿特征能够反映目标说话人的韵律变化情况;根据目标说话人的语音停顿特征,对目标文本进行分割。经由本申请提供的文本分割方法可将目标文本分割为更符合用户阅读习惯的文本片段,另外,由于目标说话人的语音停顿特征能够反映目标说话人的韵律变化情况,因此,以目标说话人的语音停顿特征为依据对目标文本进行分割,能够获得与目标说话人语音停顿保持一致性的文本分割结果。

Patent Agency Ranking