摘要:
Subject of the invention is an apparatus (2) described by a schematic block diagram for processing an audio signal (4) to obtain a processed audio signal (6). The apparatus (2) comprises a phase calculator (8) for calculating phase values (10) for spectral values of a sequence of frequency-domain frames (12) representing overlapping frames of the audio signal (4). Moreover, the phase calculator 8 is configured to calculate the phase values (10) based on information on a target time-domain envelope (14) related to the processed audio signal (6), so that the processed audio signal (6) has at least in an approximation the target time-domain envelope (14) and a spectral envelope determined by the sequence of frequency-domain frames (12).
摘要:
The technology relates to performing letter-to-sound conversion utilizing recurrent neural networks (RNNs). The RNNs may be implemented as RNN modules for letter-to-sound conversion. The RNN modules receive text input and convert the text to corresponding phonemes. In determining the corresponding phonemes, the RNN modules may analyze the letters of the text and the letters surrounding the text being analyzed. The RNN modules may also analyze the letters of the text in reverse order. The RNN modules may also receive contextual information about the input text. The letter-to-sound conversion may then also be based on the contextual information that is received. The determined phonemes may be utilized to generate synthesized speech from the input text.
摘要:
The method is performed at an electronic device with one or more processors and memory storing one or more programs for execution by the one or more processors. A first speech input including at least one word is received. A first phonetic representation of the at least one word is determined, the first phonetic representation comprising a first set of phonemes selected from a speech recognition phonetic alphabet. The first set of phonemes is mapped to a second set of phonemes to generate a second phonetic representation, where the second set of phonemes is selected from a speech synthesis phonetic alphabet. The second phonetic representation is stored in association with a text string corresponding to the at least one word.
摘要:
An eReader displays contents of an eBook and, in response to a user request, obtains a translation of text in the eBook and displays the translated text. Optionally, the eReader uses text-to-speech technology to read the translated text to the user.
摘要:
Es werden Verfahren zur Phonetisierung von textenthaltenden Datensätzen (2) und eine zur Durchführung des Verfahrens eingerichtete Einrichtung beschrieben, bei denen die als Grapheme vorliegenden Datensätze (2) in Phoneme konvertiert und als phonetisierte Datensätze (8) gespeichert werden, wobei die Grapheme in einer Präprozessierung für die Phonetisierung aufbereitet werden, insbesondere indem die Grapheme sprachdefiniert und/oder benutzerdefiniert modifiziert werden. Es ist vorgesehen, dass die Präprozessierung der Grapheme und die Konvertierung der Grapheme in Phoneme parallel auf unterschiedlichen Recheneinheiten (5, 6) oder unterschiedlichen Teilen von Recheneinheiten (5, 6) durchgeführt wird.
摘要:
Un synthétiseur numérique audio qui comprend : une mémoire d'entrée pour recevoir une suite de données numériques représentatives du spectre d'amplitude d'un signai audio, sur des fenêtres temporelles consécutives et chevauchantes, un calculateur (120), agencé pour recevoir en entrée un jeu de données numériques d'esquisse d'une fenêtre courante comprenant en début de fenêtre des données extrapolées d'amplitude, et des valeurs nulles pour le reste de la fenêtre, et pour établir en réponse une représentation numérique de la transformée de Fourier discrète complexe de ce jeu, un composeur (130), agencé pour combiner l'entrée de spectre d'amplitude associée à la fenêtre courante considérée et la représentation numérique déterminée par le calculateur, et pour appeler le calculateur (120) avec les données résultantes pour établir une représentation numérique de la transformée de Fourier discrète complexe inverse correspondante, ce qui fournit, un jeu de données numériques estimées, relatives à la fenêtre courante considérée, et un additionneur (140), pour cumuler sélectivement les données numériques estimées qui correspondent à un même temps, le composeur ( 130) est agencé pour calculer un jeu de données numériques auxiliaires (Xi(n)), en prenant le jeu de données numériques estimées (z(n)) courant, divisé par une fonction de fenêtre sur chaque fenêtre temporelle, l'additionneur (140) est agencé pour ajouter le jeu de données numériques estimées courant multiplié par la fonction de fenêtre (H) à la valeur précédente du cumul, un cxtrapolateur (110) agencé pour calculer le jeu de données numériques d'esquisse pour une fenêtre courante à partir du jeu de données numériques auxiliaires de la fenêtre précédente multiplié sélectivement par le carré de la fonction de fenêtre.