Abstract:
A system and method are presented for outlier identification to remove poor alignments in speech synthesis. The quality of the output of a text-to-speech system directly depends on the accuracy of alignments of a speech utterance. The identification of mis-alignments and mis-pronunciations from automated alignments may be made based on fundamental frequency methods and group delay based outlier methods. The identification of these outliers allows for their removal, which improves the synthesis quality of the text-to-speech system.
Abstract:
(57) 요 약 본 발명은 문자열에서 어조 표현을 위해 데이터를 추출할 수 있는 발음 단위 분할 방법 및 발음 단위별로 추출된 데이터에 의하여 문자열이 디스플레이되는 동영상 프레임 내의 문자 속성을 변화시킴으로써 문자열의 어조를 표현하는 방법에 관한 것이다. 본 발명에 따른 문자열을 발음 단위로 분할하는 방법은 문자열의 음성 파형에서 음성 강도(Intensity)의 극대점과 극소점을 추출하는 단계 및 상기 추출된 극대점을 그룹핑하여 그룹을 형성하는 단계 및 상기 그룹의 양쪽에 있는 극소점, 음성 시작점 또는 음성 종료점 중 그룹 양쪽으로 가장 근접되어 있는 점을 경계로 문자열을 발음 단위로 분할하는 단계를 포함한다. 또한, 본 발명에 따른 문자열의 어조 표현 방법은 상기 문자열을 발음 단위로 분할하는 방법에 의하여 문자열을 발음 단위로 분할하는 단계, 상기 분할된 발음 단위별로 대표 어조 데이터를 추출하는 단계, 상기 추출된 대표 어조 데이터로부터 동영상 프레임별 어조 데이터를계산하여 동영상 프레임별로 문자 속성을 부여하는 단계 및 상기 문자 속성이 부여된 동영상 프레임을 동영상으로 재생하는 단계를 포함한다.
Abstract:
A system, method and computer readable medium that trains a text-to-speech synthesis system for use in speech synthesis is disclosed. The method may include recording audio files of one or more live voices speaking language used in a specific domain, the audio files being recorded using various prosodies, storing the recorded audio files in a speech database; and training a text-to-speech synthesis system using the speech database, wherein the text-to-speech synthesis system selects audio selects audio segments having a prosody based on at least one dialog state and one speech act.
Abstract:
L'invention concerne un système de synthèse vocale d'un texte par concaténation d'unités acoustiques comportant des moyens de : - génération (6) d'une prosodie cible sous forme d'un ensemble de paramètres prosodiques ; - sélection (7) d'unités acoustiques candidates ; et - traitement du signal (8) pour créer le signal sonore comportant : - des moyens (10) de concaténation des unités acoustiques candidates en un premier flux intermédiaire, et - des moyens (11) de modification prosodique de ce flux sonore intermédiaire en fonction de la prosodie cible afin d'obtenir le signal sonore, et ledit système comportant - des moyens (9) d'écoute du signal sonore final par un utilisateur, et - des moyens (12) d'édition par l'utilisateur des paramètres du système de synthèse vocale, pour éditer la prosodie générée avec le signal sonore et modifier les paramètres prosodiques des moyens (7) de sélection d'unités et/ou des moyens (11) de modification prosodique avant la création d'un nouveau signal sonore.
Abstract:
A language processor for generating an effective synthetic sound by language processing in consideration of imitative and mimetic words. An effective synthetic sound is generated from a text which is the object of speech synthesis by using a sound expressing the meaning of an imitative or mimetic word contained in the text. An imitative word/mimetic word analysis unit (21) extracts an imitative or mimetic word from a text. An imitative word/mimetic word processing unit (27) generates acoustic data on a sound effect corresponding to the imitative or mimetic word. A sound combining unit (26) superimposes the acoustic data generated by the imitative word/mimetic word processing unit (27) on a part or all of the synthetic sound data generated by a rule combining unit (24) and corresponding to the text. The language processor can be applied to a robot having a speech synthesizer.