用于掩蔽语音建模的引导数据选择

    公开(公告)号:CN118176538A

    公开(公告)日:2024-06-11

    申请号:CN202280072161.4

    申请日:2022-08-18

    IPC分类号: G10L15/06 G10L15/16 G10L15/08

    摘要: 一种用于掩蔽语音建模的引导数据选择的方法(500)包括获得对应于话语(100)的编码表示(211)序列。对于每个相应编码表示,所述方法包括:处理所述相应编码表示以生成在可能语音识别假设(412)上的对应概率分布(414);以及向所述相应编码表示分配置信度分数(416),作为来自在可能语音识别假设上的所述对应概率分布的最高概率。所述方法还包括基于分配给所述编码表示序列的所述置信度分数选择未掩蔽编码表示的集合以掩蔽。所述方法作还包括通过掩蔽所选择的未掩蔽编码表示的集合来生成掩蔽编码表示(211m)的集合。此处,每个掩蔽编码表示对应于所述所选择的未掩蔽编码表示的集合中的所述未掩蔽编码表示中的相应一个。

    用于端到端自监督预训练的对比学习和掩蔽建模

    公开(公告)号:CN117980915A

    公开(公告)日:2024-05-03

    申请号:CN202280060536.5

    申请日:2022-07-28

    IPC分类号: G06N3/0455 G06N3/09

    摘要: 提供了改进的端到端自监督预训练框架,其利用对比损失项和掩蔽建模损失项的组合。具体地,本公开提供组合对比学习和掩蔽建模的框架,其中前者训练模型以将输入数据(例如,连续信号,如连续语音信号)离散化成有限组的判别令牌,并且后者训练模型以通过求解消耗离散化令牌的掩蔽预测任务来学习语境化表示。与依赖于迭代重新聚类和重新训练过程的某些现有的基于掩蔽建模的预训练框架或连接两个分开训练的模块的其他现有框架相比,所提出的框架可以通过同时求解两个自监督任务(对比任务和掩蔽建模)来使得模型能够以端到端的方式被优化。

    神经文本到语音的音素和字素
    5.
    发明公开

    公开(公告)号:CN117203702A

    公开(公告)日:2023-12-08

    申请号:CN202180096396.2

    申请日:2021-12-10

    IPC分类号: G10L13/047

    摘要: 方法(400)包括接收文本输入(152),文本输入包括表示为输入编码器嵌入(210)的单词序列。输入编码器嵌入包括多个词元(212),其中所述多个词元包括将文本输入表示为相应字素的第一组字素词元(212G)和将文本输入表示为相应音素的第二组音素词元(212P)。方法还包括对于第二组音素词元中的每个相应音素词元:识别与相应音素词元对应的单词序列中的相应单词和确定表示与相应音素词元对应的单词序列中的相应单词的相应字素词元。方法还包括基于每个相应音素词元与确定为表示与相应音素词元相同的相应单词的对应字素词元之间的关系生成输出编码器嵌入(Vc)。

    使用语音识别改进跨语言语音合成

    公开(公告)号:CN116457871A

    公开(公告)日:2023-07-18

    申请号:CN202180077699.X

    申请日:2021-10-20

    IPC分类号: G10L15/06

    摘要: 一种用于训练语音识别模型(200)的方法(800)包括获得多语言文本到语音(TTS)模型(310)。该方法还包括为第一语言的输入文本序列(302)生成母语合成语音表示(306),该母语合成语音表示以第一语言的母语说话者的说话者特性(304)为条件。该方法还包括为第一语言的输入文本序列生成跨语言合成语音表示,该跨语言合成语音表示以不同的第二语言的母语说话者的说话者特性为条件。该方法还包括为母语合成语音表示和跨语言合成语音表示生成第一语音识别结果和第二语音识别结果(312)。该方法还包括:基于第一语音识别结果和第二语音识别结果来确定一致损失项(352),以及基于一致损失项来更新语音识别模型的参数。

    两级语音韵律迁移
    7.
    发明公开

    公开(公告)号:CN116034424A

    公开(公告)日:2023-04-28

    申请号:CN202180056199.8

    申请日:2021-07-27

    IPC分类号: G10L13/10

    摘要: 一种方法(500)包括:接收要合成为具有预期韵律和目标话音的表达性语音(152)的输入文本话语(320);以及使用第一文本到语音(TTS)模型(212)来生成输入文本话语的中间合成语音表示(202)。该中间合成语音表示拥有预期韵律。该方法还包括:将中间合成语音表示提供给第二TTS模型(220),该第二TTS模型(220)包括编码器部分(300)和解码器部分(400)。该编码器部分被配置成将中间合成语音表示编码成指定预期韵律的话语嵌入(204)。该解码器部分被配置成处理输入文本话语和话语嵌入以生成表达性语音的输出音频信号(280),该输出音频信号(280)具有由话语嵌入指定的预期韵律和目标话音的讲话者特性。

    使用合成的训练数据的两级文本到语音系统

    公开(公告)号:CN117678013A

    公开(公告)日:2024-03-08

    申请号:CN202280049428.8

    申请日:2022-07-01

    IPC分类号: G10L13/033

    摘要: 方法(600)包括获得包括多个训练音频信号(102)和相应转录(106)的训练数据(10)。每个训练音频信号由以第一口音/方言的目标说话者说出。对于每个训练音频信号,方法包括生成由目标说话者以第二口音/方言说出的训练合成语音表示(202),并且基于对应转录和训练合成语音表示来训练文本到语音(TTS)系统(300)。方法还包括接收要被合成为以第二口音/方言的语音的输入文本话语(320)。方法还包括获得说话者嵌入(108)和标识第二口音/方言的口音/方言标识符(109)。方法还包括生成对应于输入文本序列的合成语音表示的输出音频波形(152),该输出音频波形克隆以第二口音/方言的目标说话者的声音。

    用于端到端自动语音识别置信度和删除估计的多任务学习

    公开(公告)号:CN117099157A

    公开(公告)日:2023-11-21

    申请号:CN202180096393.9

    申请日:2021-12-11

    IPC分类号: G10L15/16

    摘要: 一种方法(500)包括接收与话语(12)的转录(204)对应的语音识别结果(222)。对于所述语音识别结果的假设子词单元的序列中的每个子词单元,所述方法还包括:当对应的子词单元从第一语音识别器(200)输出时,获得与对应的输出步骤相关联的相应置信度嵌入(242);生成置信度特征向量(312);生成声学场境向量(322);以及基于由所述置信度估计模块的所述输出层作为输入接收的所述置信度特征向量和所述声学场境向量,生成所述对应的子词单元的相应置信度输出得分(302)。所述方法还包括:基于为所述假设子词单元的序列中的每个子词单元生成的所述相应置信度输出得分,确定所述话语的所述转录的话语级置信度得分(350)。

    无监督并行Tacotron非自回归和可控的文本到语音

    公开(公告)号:CN117043855A

    公开(公告)日:2023-11-10

    申请号:CN202180096036.2

    申请日:2021-05-20

    IPC分类号: G10L13/047

    摘要: 一种用于训练非自回归TTS模型(300)的方法(600)包括获得与变分嵌入(220)级联的编码文本序列(219)的序列表示(224)。方法还包括预测由编码文本序列表示的每个音素的音素持续时间(240)。方法还包括,基于预测音素持续时间,学习区间表示和辅助注意力上下文表示以及使用区间表示和辅助注意力上下文表示将序列表示上采样为上采样输出(258)。方法还包括,基于上采样输出针对编码文本序列生成一个或多个预测梅尔频谱图序列(302)。方法还包括基于预测梅尔频谱图序列和参考梅尔频谱图序列(202)来确定最终频谱图损失(280)以及基于最终频谱图损失来训练TTS模型。