情報処理方法、情報処理システムおよびプログラム

    公开(公告)号:WO2022074754A1

    公开(公告)日:2022-04-14

    申请号:PCT/JP2020/037966

    申请日:2020-10-07

    Abstract: 第1発音スタイルでシンボル列を発音した音の特徴量の時系列を表す第1時系列データを、利用者からの第1指示に応じて編集し、第1時系列データの編集毎に、当該編集後の第1時系列データに応じた第1履歴データを新規バージョンのデータとして保存し、第1発音スタイルとは異なる第2発音スタイルでシンボル列を発音した音の特徴量の時系列を表す第2時系列データを、利用者からの第2指示に応じて編集し、第2時系列データの編集毎に、当該編集後の第2時系列データに応じた第2履歴データを新規バージョンのデータとして保存し、保存された相異なるバージョンの複数の第1履歴データのうち利用者からの指示に応じた第1履歴データに対応する第1時系列データ、または、保存された相異なるバージョンの複数の第2履歴データのうち利用者からの指示に応じた第2履歴データに対応する第2時系列データを取得する。

    SYNTHESIZED DATA AUGMENTATION USING VOICE CONVERSION AND SPEECH RECOGNITION MODELS

    公开(公告)号:WO2022046526A1

    公开(公告)日:2022-03-03

    申请号:PCT/US2021/046781

    申请日:2021-08-19

    Applicant: GOOGLE LLC

    Abstract: A method (380) for training a speech conversion model (300) includes obtaining a plurality of transcriptions (302) in a set of spoken training utterances (305) and obtaining a plurality of unspoken training text utterances. Each spoken training utterance is spoken by a target speaker (104) associated with atypical speech and includes a corresponding transcription paired with a corresponding non-synthetic speech representation (304). The method also includes adapting, using the set of spoken training utterances, a TTS model (210) to synthesize speech in a voice of the target speaker and that captures the atypical speech. For each unspoken training text utterance, the method also includes generating, as output from the adapted TTS model, a synthetic speech representation (306) that includes the voice of the target speaker and that captures the atypical speech. The method also includes training the speech conversion model based on the synthetic speech representations.

    歌曲合成方法、装置、可读介质及电子设备

    公开(公告)号:WO2021218324A1

    公开(公告)日:2021-11-04

    申请号:PCT/CN2021/077986

    申请日:2021-02-25

    Inventor: 顾宇 殷翔

    Abstract: 一种歌曲合成方法、装置、电子设备、计算机可读介质及计算机程序,其中该方法包括:根据目标歌曲的歌曲信息,获取目标歌曲的时长特征信息(101);将时长特征信息和歌曲信息输入至预设的歌曲合成模型中,得到目标歌曲对应的声学特征信息,其中,预设的歌曲合成模型为基于注意力机制的序列到序列模型(102);通过声码器对声学特征信息进行合成,得到目标歌曲的歌唱音频(103)。由于基于注意力机制的序列到序列模型采用端到端的架构,因此,可提取更丰富的声学特征信息,具有较好的时序建模能力,使得合成后的歌唱音频的发音更加清楚,走调的现象更少,合成的音域也更广。由此,提升了合成的歌唱音频的自然度和流畅性,使其比较接近真人演唱效果,用户听觉体验佳。

    歌曲合成方法、装置、设备及存储介质

    公开(公告)号:WO2021218138A1

    公开(公告)日:2021-11-04

    申请号:PCT/CN2020/131663

    申请日:2020-11-26

    Inventor: 朱清影 韩宝强

    Abstract: 一种歌曲合成方法,包括:获取歌词朗诵音频和乐谱信息(101);通过预置语音识别模型和歌词拼音文本对歌词朗诵音频进行时长标注,得到朗诵时长(102);通过预置声码器从歌词朗诵音频中分析初始声学参数(103);根据预置声母变速字典、节奏信息和节拍信息从歌词拼音文本中提取歌唱时长(104);根据预置变速算法、朗诵时长和歌唱时长对初始声学参数进行变速处理(105);对变速后的频谱包络进行共振峰增强处理,得到增强后的频谱包络(106);基于音高信息、歌唱时长和变速后的基频进行矫正处理,得到矫正后的基频(107);通过预置声码器对处理后的声学参数进行歌曲合成处理(108)。还涉及区块链,合成的歌曲存储于区块链中。

    SYNTHESIZED SPEECH AUDIO DATA GENERATED ON BEHALF OF HUMAN PARTICIPANT IN CONVERSATION

    公开(公告)号:WO2021162675A1

    公开(公告)日:2021-08-19

    申请号:PCT/US2020/017562

    申请日:2020-02-10

    Applicant: GOOGLE LLC

    Abstract: Generating synthesized speech audio data on behalf of a given user in a conversation. The synthesized speech audio data includes synthesized speech that incorporates textual segment(s). The textual segment(s) can include recognized text that results from processing spoken input, of the given user, using a speech recognition model and/or can include a selection of a rendered suggestion that conveys the textual segment(s). Some implementations dynamically determine one or more prosodic properties for use in speech synthesis of the textual segment, and generate the synthesized speech with the one or more determined prosodic properties. The prosodic properties can be determined based on the textual segment(s) used in speech synthesis, textual segment(s) corresponding to recent spoken input of additional participant(s), attribute(s) of relationship(s) between the given user and additional participant(s) in the conversation, and/or feature(s) of a current location for the conversation.

Patent Agency Ranking