语音合成方法、系统、语音合成模型及其训练方法

    公开(公告)号:CN113948061A

    公开(公告)日:2022-01-18

    申请号:CN202111205560.7

    申请日:2021-10-15

    IPC分类号: G10L13/08 G10L13/10 G10L25/63

    摘要: 本申请提供一种语音合成方法、系统、语音合成模型及其训练方法,所述方法包括获取目标文本和目标文本的第一瓶颈特征;获取参考音频库,参考音频库包括若干参考音频;获取参考音频库中每一个参考音频对应的参考文本,以及,获取每一个参考文本的第二瓶颈特征;计算第一瓶颈特征与每一个参考文本的第二瓶颈特征的相似度,将与第一瓶颈特征相似度最高的第二瓶颈特征对应的参考文本确定为文本模板;将文本模板对应的参考音频确定为音频模板;将音频模板和目标文本输入预先训练的语音合成模型中,以合成具备深度情感层次特征的语音。

    一种文本摘要的生成方法及装置
    3.
    发明公开

    公开(公告)号:CN113886568A

    公开(公告)日:2022-01-04

    申请号:CN202111169246.8

    申请日:2021-09-30

    摘要: 本申请提供了一种文本摘要的生成方法及装置,可以通过构建目标文本中各分句之间的句子网络关系,以准确获取各分句之间的邻接关系,从句子关系网络中确定由所代表的文本内容高度统一的多个分句构成的子关系网络,并通过准确计算各子关系网络与句子关系网络之间的文档相似度,以确定作为文本摘要的目标子关系网络。可见,本申请所提供的文本摘要的生成方法可以有效提高所生成的文本摘要的文本内容与目标文本的文本内容之间的匹配度,令文本摘要更加准确地代表目标文本,从而可以为后续匹配目标视频素材提供更加准确的文本基础,以提高所匹配到的目标视频素材的准确性。

    基于并行计算的语音识别模型及确定方法

    公开(公告)号:CN115099189A

    公开(公告)日:2022-09-23

    申请号:CN202210719923.7

    申请日:2021-08-06

    摘要: 本申请实施例提供了一种基于并行计算的语音识别模型及确定方法,所述模型包括:嵌入查找层,配置为将输入文本中的每个字符转换为字符嵌入向量;深度学习层,包括线性变化单元与遗忘门单元,遗忘门单元配置为,根据当前时序对应的字符嵌入向量得到遗忘门结果;深度学习层配置为,对不同时序对应的多个字符嵌入向量进行并行处理以得到不同时序对应的多个输出结果,并根据多个输出结果输出与输入文本对应的第一特征向量;条件随机场层,配置为根据第一特征向量确定输入文本的每个字符对应的符号标签,其中,符号标签用于指示对应字符相邻的标点符号类型或无标点状态。解决了相关技术中无法快速有效地实现语音识别后的文本中的标点符号预测的问题。

    一种视频素材的标签生成方法及装置

    公开(公告)号:CN113901263B

    公开(公告)日:2022-08-19

    申请号:CN202111164753.2

    申请日:2021-09-30

    摘要: 本申请提供了一种视频素材的标签生成方法及装置,根据所确定的与待打标的视频素材库对应的目标领域的类别信息,可以获取与该目标领域对应的文本素材中的类别文本,并从这些类别文本中选择与视频内容相匹配的目标类别文本以及对应的目标类别信息作为视频素材的标签。本申请所提供的视频素材的标签生成方法,可以基于目标领域中的文本素材为该目标领域中的视频素材生成标签,避免使用人工基于主观生成的非标准化的标签,从而有效提高标签的准确性。同时,可以通过使用打标模型,有效提高标签的生成效率。

    语音分离方法及装置、存储介质、电子装置

    公开(公告)号:CN113593587B

    公开(公告)日:2022-07-29

    申请号:CN202110902416.2

    申请日:2021-08-06

    摘要: 本申请实施例提供了一种语音分离方法及装置、存储介质、电子装置,所述方法包括:获取音频数据和与音频数据同步采集的至少一组视频数据,其中,音频数据中包含至少一个目标角色的混合语音数据;将音频数据按照时域进行切分,同时将视频数据转换为图像序列后提取图像特征向量;将切分后的音频数据和图像特征向量分别进行编码后按照时间信息进行融合,得到混合编码信息;根据混合编码信息输出至少一个目标角色的编码权重;根据至少一个目标角色编码权重和所述频数据输出至少一个目标角色的独立语音数据。

    混合变形值的输出方法及装置、存储介质、电子装置

    公开(公告)号:CN113592985B

    公开(公告)日:2022-06-17

    申请号:CN202110901418.X

    申请日:2021-08-06

    IPC分类号: G06T13/20 G06N3/04 G10L19/00

    摘要: 本申请实施例提供了一种混合变形值的输出方法及装置、存储介质、电子装置,所述方法包括:对获取的目标音频数据进行特征提取,得到目标音频特征向量;将目标音频特征向量和目标标识输入音频驱动动画模型;将目标音频特征向量输入包含多层卷积层的音频编码层,根据上一层t时刻和t‑n时刻之间的输入特征向量确定下一层(2t‑n)/2时刻的输入特征向量,将与上一层的输入特征向量有因果关系的特征向量确定为有效特征向量,依次根据每一层的有效特征向量输出目标音频编码特征,并将目标标识输入独热编码层进行二进制向量编码,得到目标标识编码特征;根据目标音频编码特征和目标标识编码特征,通过音频驱动动画模型输出目标音频数据对应的混合变形值。

    文本对齐方法、存储介质、电子装置

    公开(公告)号:CN114627874A

    公开(公告)日:2022-06-14

    申请号:CN202210246648.1

    申请日:2021-06-15

    IPC分类号: G10L15/26 G10L15/16

    摘要: 本申请实施例提供了一种文本对齐方法、存储介质、电子装置,所述方法包括:向ASR模型组输入预设格式的音频文件或音频流,通过ASR模型组将输入的音频数据转换为第一文本;将第一参照文本依次与多个第一文本中第一参照文本以外的第一文本进行对齐,以得到多个第二文本,将任一第二文本作为判断文本,并在多个第二文本之间的长度不等的情况下,对判断文本进行更新,以得到目标判断文本;将目标判断文本设定为第二参照文本;在多个第二文本的长度均相等的情况下,确定多个第二文本为目标文本;在多个第二文本的长度不等的情况下,将第二参照文本依次与多个第二文本中第二参照文本以外的第二文本进行对齐,得到多个目标文本。