一种语音大模型的构建和训练方法、音频输出方法及应用

    公开(公告)号:CN118398004B

    公开(公告)日:2024-09-17

    申请号:CN202410817603.4

    申请日:2024-06-24

    摘要: 本发明属于自然语言处理技术领域,尤其涉及一种语音大模型的构建和训练方法、音频输出方法及应用。构建和训练方法包括:将包含预训练需求数据和对应的预训练响应数据的预训练集输入语音大模型的编码模块内,将预训练需求映射成预训练需求向量后形成预训练中间表征集送入语音大模型中的处理模块内;处理模块基于预训练需求向量得到响应结果后与预训练中间表征集一并送入语音大模型的判别模块内;预训练中间表征集进入判别模块中的判别器内,同时判别模块将各响应结果送入判别模块的生成器内生成对应音频信号后进入判别器内;判别器计算各音频信号的真实性得分和语音大模型的损失函数后进行优化。本发明能够高效地训练语音大模型。

    一种语音大模型的构建和训练方法、音频输出方法及应用

    公开(公告)号:CN118398004A

    公开(公告)日:2024-07-26

    申请号:CN202410817603.4

    申请日:2024-06-24

    摘要: 本发明属于自然语言处理技术领域,尤其涉及一种语音大模型的构建和训练方法、音频输出方法及应用。构建和训练方法包括:将包含预训练需求数据和对应的预训练响应数据的预训练集输入语音大模型的编码模块内,将预训练需求映射成预训练需求向量后形成预训练中间表征集送入语音大模型中的处理模块内;处理模块基于预训练需求向量得到响应结果后与预训练中间表征集一并送入语音大模型的判别模块内;预训练中间表征集进入判别模块中的判别器内,同时判别模块将各响应结果送入判别模块的生成器内生成对应音频信号后进入判别器内;判别器计算各音频信号的真实性得分和语音大模型的损失函数后进行优化。本发明能够高效地训练语音大模型。