声纹更新方法、装置、设备和存储介质

    公开(公告)号:CN118800241A

    公开(公告)日:2024-10-18

    申请号:CN202311369389.2

    申请日:2023-10-20

    摘要: 本申请涉及人工智能领域,提供一种声纹更新方法、装置、设备和存储介质。所述方法包括:对客户近一个周期的若干个音频进行切分,得到多个人声片段;以原注册音所在簇的人声片段时长和达到阈值为终止条件,对人声片段和原注册音进行聚类;对原注册音所在簇的人声片段进行拼接后进行特征提取,得到拼接声纹特征;基于拼接声纹特征与原注册音的比对结果更新原注册音。本申请提供的声纹更新方法根据近期通话录音数据,拼接细粒度的聚类片段作为更新的注册音,持续优化声纹模型,提高声纹认证的准确性和稳定性;聚集注册音相近的人声片段,结合时长阈值作为聚类终止条件,保证说话人特征有效性的同时确保注册音时长,提升了注册音鲁棒性。

    语音合成前端处理方法、装置、设备和存储介质

    公开(公告)号:CN118800212A

    公开(公告)日:2024-10-18

    申请号:CN202311589429.4

    申请日:2023-11-27

    IPC分类号: G10L13/02 G10L13/08 G10L13/10

    摘要: 本申请涉及计算机技术领域,提供一种语音合成前端处理方法、装置、设备和存储介质。该方法包括:对待处理文本进行切分,得到至少一个文字,基于预设字典确定每个文字对应的序号;将携带序号的待处理文本输入至韵律预测模型,得到韵律预测模型输出的韵律标签和拼音标签;其中,韵律预测模型是基于携带韵律标签和拼音标签的文本数据集,以及预设字典对应的编码向量训练得到的。本申请通过预训练编码,从预设字典中提取有关发音和韵律的编码信息,并引入模型中,从而提高模型对多音字消歧任务的预测准确率;同时,通过韵律预测模型预测韵律标签和拼音标签,降低了推理复杂度,并提高了前端任务的准确率。

    语音情绪类型识别方法、装置、设备、介质及产品

    公开(公告)号:CN118430588A

    公开(公告)日:2024-08-02

    申请号:CN202410616723.8

    申请日:2024-05-17

    IPC分类号: G10L25/63

    摘要: 本发明提供一种语音情绪类型识别方法、装置、设备、介质及产品,属于情绪识别技术领域,方法包括:获取音频信号;基于音频信号进行多层次特征提取;将多层级音频特征输入至情绪识别模型,输出音频信号存在情绪的第一后验概率、音频信号存在情绪的概率门限值以及多个情绪类型分别对应的第二后验概率;基于第一后验概率和概率门限值,确定音频信号的情绪系数;基于情绪系数和多个第二后验概率,确定音频信号的目标情绪类型结果。本发明提供的语音情绪类型识别方法,先通过情绪系数反映出一个初步的情绪分类结果,再在此情绪分类结果的基础上,基于情绪系数和多个第二后验概率的结合,实现更细粒度的情绪分类,从而提高语音情绪类型识别的准确性。

    语音关键词识别方法和装置
    5.
    发明公开

    公开(公告)号:CN111798840A

    公开(公告)日:2020-10-20

    申请号:CN202010688457.1

    申请日:2020-07-16

    摘要: 本申请提供一种语音关键词识别方法和装置,从目标关键词的音频中提取出第一声学特征和第二声学特征,将第一声学特征和第二声学特征拼接为第一声学特征序列;从待识别的目标语音的音频中提取出第三声学特征和第四声学特征,将第三声学特征和第四声学特征拼接为第二声学特征序列;将第一、第二声学特征序列分别输入预先训练的第一模型和第二模型,输出第一、第二嵌入向量;计算第一嵌入向量与第二嵌入式向量之间的相似度,基于相似度确定目标语音中是否包含目标关键词。该方法使得输出的嵌入向量包含更多的上下文信息,改善了样例关键词识别的有效性。

    语音关键词识别方法和装置

    公开(公告)号:CN111798840B

    公开(公告)日:2023-08-08

    申请号:CN202010688457.1

    申请日:2020-07-16

    摘要: 本申请提供一种语音关键词识别方法和装置,从目标关键词的音频中提取出第一声学特征和第二声学特征,将第一声学特征和第二声学特征拼接为第一声学特征序列;从待识别的目标语音的音频中提取出第三声学特征和第四声学特征,将第三声学特征和第四声学特征拼接为第二声学特征序列;将第一、第二声学特征序列分别输入预先训练的第一模型和第二模型,输出第一、第二嵌入向量;计算第一嵌入向量与第二嵌入式向量之间的相似度,基于相似度确定目标语音中是否包含目标关键词。该方法使得输出的嵌入向量包含更多的上下文信息,改善了样例关键词识别的有效性。