一种可泛化的语音生成SQL方法
    5.
    发明公开

    公开(公告)号:CN116386641A

    公开(公告)日:2023-07-04

    申请号:CN202310210616.0

    申请日:2023-03-07

    摘要: 本发明公开了一种可泛化的语音生成SQL方法。本发明采用的技术方案为:步骤1),利用语音重编程对原始的语音输入进行声学信息多样化处理和语者信息标准化处理;步骤2),利用自监督音频表征模型提取语义信息丰富的音频表征;步骤3),将步骤2)得到的音频表征通过反向梯度和分类器对不同语者的音频进行分类,并在推理时使用梯度反转,学习语者无关的音频表征;步骤4),将步骤2)得到的音频表征同文本数据库特征输入relation‑aware transformer中,并将输出随即输入到SQL解码器中得到预测的SQL,并与真实SQL计算MLE损失。本发明采用语音重编程和梯度反转分类器技术,解决了直接的语音到SQL解析,减少了声学方法和音频中的风格信息而保留语义信息。