模型训练方法、装置、电子设备和非易失性可读存储介质

    公开(公告)号:CN118918882A

    公开(公告)日:2024-11-08

    申请号:CN202411170137.1

    申请日:2024-08-23

    发明人: 张琪 高羽

    摘要: 本发明提出了一种模型训练方法、装置、电子设备和非易失性可读存储介质,涉及人工智能算法训练技术领域,模型训练方法包括:获取第一音频数据;将第一音频数据输入音频数据降噪模型,获取音频数据降噪模型输出的第二音频数据;提取第二音频数据中的第一特征数据;将第一特征数据输入特征数据修复模型,获取特征数据修复模型输出的第二特征数据;将第二特征数据输入唤醒模型,以对唤醒模型进行训练。本发明会对第一音频数据进行一系列处理,最终通过第二特征数据训练唤醒模型,第二特征数据的维度较小,进而可以压缩模型的大小,降低算力的需求,从而提升模型的训练效率。

    语音处理方法、电子设备、存储介质、程序产品及系统

    公开(公告)号:CN118865956A

    公开(公告)日:2024-10-29

    申请号:CN202410904135.4

    申请日:2024-07-05

    摘要: 本申请公开了一种语音处理方法、电子设备、存储介质、程序产品及语音处理系统。该方法包括获取目标语音;对目标语音进行识别,且根据识别结果得到第一响应结果以及第一响应结果的置信度;响应于第一响应结果的置信度小于预设阈值,将目标语音和目标语音对应的特征信息中至少一种和历史处理信息发送至服务器端进行处理以获取目标语音的第二响应结果;其中,历史处理信息包括与历史语音对应的历史识别结果以及历史响应结果;按照第二响应结果响应目标语音。通过上述方式,本申请能够提高语音响应的准确率。

    就近唤醒设备识别方法、装置及电子设备

    公开(公告)号:CN118748014A

    公开(公告)日:2024-10-08

    申请号:CN202410963592.0

    申请日:2024-07-17

    发明人: 张文彬 高羽

    IPC分类号: G10L15/22 G10L21/0216

    摘要: 本发明涉及就近唤醒技术领域,提供一种就近唤醒设备识别方法、装置及电子设备。该方法包括:判断接收的用户唤醒语音是否来自于多通道语音设备;若是,则基于噪声抑制度对第一目标语音进行降噪,得到第一降噪后语音;若否,则基于信噪比对第二目标语音进行降噪,得到第二降噪后语音;根据第一降噪后语音和/或第二降噪后语音,识别就近唤醒的设备。本发明由于对任一语音设备类型的目标语音进行了针对性地降噪,能够避免各目标语音的能量信息受到噪声干扰,使其能够准确地表征用户唤醒语音能量,从而能够准确地识别设备与用户之间的距离,最终准确识别出距离用户最近的就近唤醒的设备以进行唤醒,提高用户体验。

    机器人的音量控制方法及控制装置、存储介质和机器人

    公开(公告)号:CN118592859A

    公开(公告)日:2024-09-06

    申请号:CN202410774895.8

    申请日:2024-06-14

    发明人: 高羽

    IPC分类号: A47L11/40

    摘要: 本申请提供了一种机器人的音量控制方法及控制装置、存储介质和机器人,涉及扫地机器人技术领域。其中,音量控制方法包括:在检测到第一交互语音的情况下,确定第一交互语音的起点时间点和终点时间点;根据起点时间点和终点时间点,获取第一交互语音对应的第一音频;确定第一音频对应的直达声信号和混响声信号;根据直达声信号和混响声信号确定第一混响比;根据第一混响比确定机器人的语音应答音量。本申请技术方案通过准确获取当前语音交互事件内的用户交互语音的音频,并基于音频的混响比来调整机器人的语音应答音量,能够实现机器人语音应答音量的自适应调整,使得机器人的语音应答音量总是能够符合当前实际场景。

    文本的规范化方法、装置、存储介质和电子设备

    公开(公告)号:CN115758990A

    公开(公告)日:2023-03-07

    申请号:CN202211261757.7

    申请日:2022-10-14

    发明人: 王添翼 高羽

    摘要: 本申请提出了一种文本的规范化方法、装置、存储介质和电子设备。该文本的规范化方法包括:获取输入文本;将输入文本输入至第一模型,确定输入文本中字符的标注数据;根据标注数据,通过第二模型对输入文本进行文本规范化处理,确定输出文本;其中,第一模型为预先训练的神经网络模型,第二模型为加权有限状态转换机,标注数据包括输入文本中字符的序列标注数据和输入文本中特殊字符的不同含义的概率分布。

    文本序列的标注方法、装置、存储介质和电子设备

    公开(公告)号:CN115563951A

    公开(公告)日:2023-01-03

    申请号:CN202211261156.6

    申请日:2022-10-14

    发明人: 王添翼 高羽

    IPC分类号: G06F40/189 G06F40/205

    摘要: 本申请提出了一种文本序列的标注方法、装置、存储介质和电子设备。该标注方法包括:获取训练文本,训练文本包括输入字符和输出字符;根据预设规则构建第一模型的对齐规则,第一模型为加权有限状态转换机,对齐规则为对输入字符和输出字符进行对齐输出的规则;将训练文本输入至第一模型,基于对齐规则确定输入字符和输出字符的对齐结果;根据对齐结果确定第一标注数据,并根据第一标注数据对输入字符进行序列标注。

    一种音色切换方法、装置、设备及介质

    公开(公告)号:CN114822496A

    公开(公告)日:2022-07-29

    申请号:CN202110962055.0

    申请日:2021-08-20

    发明人: 高羽

    IPC分类号: G10L13/08 G10L13/033

    摘要: 本申请公开了一种音色切换方法、装置、设备及介质,应用于语音合成技术领域,用以解决现有技术在切换TTS系统的发音人时存在的用户感知明显、用户体验较差的问题。具体为:获取目标发音人数据和原始发音人数据;基于各个音色变化阶段的音色变化程度,对目标发音人数据和原始发音人数据进行混合,得到各个音色变化阶段的发音人数据;基于各个音色变化阶段的发音人数据,获得各个音色变化阶段的TTS系统;基于各个音色变化阶段的音色变化程度表征的调用顺序,调用各个音色变化阶段的TTS系统,从而可以实现从原始发音人音色到的目标发音人音色的平滑切换,进而可以降低TTS系统切换发音人时的用户感知,提高TTS系统的用户体验。

    语音拼接方法和语音拼接装置
    9.
    发明公开

    公开(公告)号:CN114822490A

    公开(公告)日:2022-07-29

    申请号:CN202210346114.6

    申请日:2022-03-31

    发明人: 高羽 刘雪铃

    摘要: 本申请涉及语音合成领域,提供一种语音拼接方法和语音拼接装置,语音拼接方法,包括:对目标文本的韵律音素序列进行切分,生成多个分句序列,韵律音素序列包括与目标文本对应的多个音素以及位于相邻音素之间的韵律标识符;分别对分句序列进行语音合成,生成多个第一分句语音信息,第一分句语音信息包括每一个韵律标识符和音素对应的第一时长;基于第一时长和第一分句语音信息对应的分句序列在韵律音素序列中的切分顺序,拼接多个第一分句语音信息,生成目标语音。本申请的语音拼接方法,能够实现在不需要预设语音拼接单元库且不需要对待拼接语音单元进行平滑处理的基础上,即可提高相邻第一分句语音信息拼接处的自然度与流畅度。

    文本转写方法和文本转写装置
    10.
    发明公开

    公开(公告)号:CN114822489A

    公开(公告)日:2022-07-29

    申请号:CN202210346094.2

    申请日:2022-03-31

    发明人: 高羽 涂建华

    摘要: 本申请涉及语音合成领域,提供一种文本转写方法和文本转写装置,所述文本转写方法,包括:对目标文本的韵律音素序列进行切分,生成多个分句序列,所述韵律音素序列包括与所述目标文本对应的多个音素以及位于相邻所述音素之间的韵律标识符,每个所述分句序列包括至少一个所述音素;确定所述多个分句序列中的任一待匹配分句序列与所述目标分句序列匹配,从所述缓存中获取与所述目标分句序列对应的目标分句语音,将所述待匹配分句序列对应的语音确定为所述目标分句语音。本申请的文本转写方法,可以有效提高命中效率且提高语音合成的效率。