语音分类方法、模型训练方法及装置、设备、介质和程序

    公开(公告)号:WO2023279691A1

    公开(公告)日:2023-01-12

    申请号:PCT/CN2022/071089

    申请日:2022-01-10

    发明人: 张军伟 李诚

    摘要: 一种语音分类方法、模型训练方法及装置(400)、设备(700)、介质(800)和程序,其中,训练方法包括:获取至少一个类别的语音数据,同一类别的语音数据构成一个语音数据集(S11);提取语音数据集中每个语音数据的语音特征(S12);利用语音数据集中的语音特征对语音分类模型中的子分类模型进行训练;语音分类模型包括至少一个子分类模型,子分类模型与语音数据集一一对应(S13)。通过对语音数据进行类别分类,形成对应语音数据集,利用语音特征训练对应的子分类模型,从而得到识别所需类别语音数据的语音分类模型。仅利用新类别的语音数据来进行训练,即可使得语音分类模型实现对新类别的分类。

    一种合成语音的方法、装置、终端及存储介质

    公开(公告)号:WO2022257454A1

    公开(公告)日:2022-12-15

    申请号:PCT/CN2022/071430

    申请日:2022-01-11

    IPC分类号: G10L13/08 G10L25/18 G10L25/30

    摘要: 本申请适用于语音合成技术领域,提供了一种合成语音的方法、装置、终端及存储介质。该方法包括:获取文本信息;将文本信息输入到已训练的频谱生成模型中进行处理,得到文本信息对应的梅尔谱图,频谱生成模型为无需蒸馏的非自回归式的模型,频谱生成模型包括编码器、长度预测网络以及解码器,该解码器的训练过程和实际使用过程是逆运算的过程;基于该梅尔谱图,生成该文本信息对应的语音信息。上述方案中,由于该生成模型为无需蒸馏的非自回归式的模型,提升了该频谱生成模型生成梅尔谱图的速率,进而提升了语音合成的速度。且基于该频谱生成模型可准确、快速地提取文本信息对应的梅尔谱图,进而使得基于该梅尔谱图生成的语音质量高。

    RECOGNITION OR SYNTHESIS OF HUMAN-UTTERED HARMONIC SOUNDS

    公开(公告)号:WO2022243828A1

    公开(公告)日:2022-11-24

    申请号:PCT/IB2022/054502

    申请日:2022-05-13

    摘要: Within each harmonic spectrum of a sequence of spectra derived from analysis of a waveform representing human speech are identified two or more fundamental or harmonic components that have frequencies that are separated by integer multiples of a fundamental acoustic frequency. The highest harmonic frequency that is also greater than 410 Hz is a primary cap frequency, which is used to select a primary phonetic note that corresponds to a subset of phonetic chords from a set of phonetic chords for which acoustic spectral is available. The spectral data can also include frequencies for primary band, secondary band (or secondary note), basal band, or reduced basal band acoustic components, which can be used to select a phonetic chord from the subset of phonetic chords corresponding to the selected primary note.

    信号処理装置、信号処理方法、信号処理システム及びコンピュータ読み取り可能な記憶媒体

    公开(公告)号:WO2022234636A1

    公开(公告)日:2022-11-10

    申请号:PCT/JP2021/017459

    申请日:2021-05-07

    IPC分类号: G10L25/18 G10L25/51

    摘要: 適切にイベントの発生を検知することが可能な信号処理装置等を提供する。本開示の一態様にかかる信号処理装置は、入力信号を、時間周波数領域の信号である所定の信号に変換する変換手段と、前記所定の信号の時間周波数強度のピークを、イベントの発生に関連する信号である目的信号の強度と推定する目的信号推定手段と、前記ピークに関連する周波数から所定の周波数までの帯域幅であって、前記ピークと異なるピークに関連する周波数を含まない帯域幅を少なくとも含む帯域を、雑音信号の周波数帯域である雑音帯域と推定する、帯域推定手段と、前記雑音帯域における時間周波数強度に基づいて、前記雑音信号の強度を推定する雑音信号推定手段と、前記目的信号の強度と前記雑音信号の強度との比に基づいて、イベントの発生の有無を判定する判定手段と、を備える。

    MACHINE-LEARNING-BASED SPEECH PRODUCTION CORRECTION

    公开(公告)号:WO2022168102A1

    公开(公告)日:2022-08-11

    申请号:PCT/IL2022/050158

    申请日:2022-02-08

    摘要: A system and method of speech modification may include: receiving a recorded speech, comprising one or more phonemes uttered by a speaker; segmenting the recorded speech to one or more phoneme segments (PS), each representing an uttered phoneme; selecting a phoneme segment (PSk) of the one or more phoneme segments (PS); extracting a portion of the recorded speech, said portion corresponding to a first timeframe (T̃) that comprises the selected phoneme segment; receiving a representation (P͠ * ) of a phoneme of interest P*; and applying a machine learning (ML) model on (a) the extracted portion of the recorded speech and (b) on the representation (P͠ * ) of the phoneme of interest P*, to generate a modified version of the extracted portion of recorded speech, wherein the phoneme of interest (P*) substitutes the selected phoneme segment (PSk).

    음성 합성 시스템의 동작방법
    9.
    发明申请

    公开(公告)号:WO2022154341A1

    公开(公告)日:2022-07-21

    申请号:PCT/KR2021/095116

    申请日:2021-12-02

    发明人: 장준혁 황성웅

    IPC分类号: G10L13/08 G10L13/02 G10L25/18

    摘要: 본 발명은, 제1 텍스트와 상기 제1 텍스트에 대한 제1 음성 및 제2 텍스트와 제2 텍스트에 대한 제2 음성이 입력되는 단계, 제1, 2 텍스트 및 제1, 2 음성을 커리큘럼 러닝에 적용하여 학습한 음성 함성 모델을 생성하는 단계 및 음성 출력을 위한 대상 텍스트 입력 시, 음성 합성 모델을 기반으로 대상 텍스트에 대응하는 대상 합성 음성을 출력하는 단계를 포함하고, 음성 합성 모델을 생성하는 단계는, 제1, 2 텍스트를 결합한 결합 텍스트 및 제1, 2 음성을 결합한 결합 음성을 생성하는 단계 및 결합 텍스트 및 결합 음성의 학습 결합 시 에러 레이트(error rate)가 설정된 기준 레이트(reference rate)보다 작으면 결합 텍스트 및 결합 음성을 상기 음성 합성 모델에 추가하는 단계를 포함하는 음성 합성 시스템의 동작방법을 제공한다.