摘要:
A voice synthesis method comprises generating a relative pitch transition (CR) based on synthesis-purpose music track data (YB) and singing characteristic data (Z). The singing characteristics data (Z) comprises a first singing characteristics data (Z1) including a first decision tree T1[n] and a second singing characteristics data (Z2) including a second decision tree T2[n]. The first singing characteristics data (Z1) and the second singing characteristics data (Z2) are mixed. The relative pitch transition (CR) is generated corresponding to the synthesis-purpose music track data (YB) and the mixed singing characteristics data based on a model (M). The first decision tree (T1[n]) and the second decision tree (T2[n]) differ in at least one of size, structure, and classification.
摘要:
Es wird eine Technik zur Ausgabe eines akustischen Signals mittels eines Navigationssystems vorgestellt, wobei das Navigationssystem zumindest eine Datenbank und eine akustische Ausgabeeinrichtung umfasst. Ein Verfahrensaspekt der Technik umfasst die Schritte Speichern einer Vielzahl von Phonemen in einem ersten Zustand in der zumindest einen Datenbank, Auswählen zumindest eines der Vielzahl von Phonemen auf der Grundlage eines im Rahmen einer Routenführung empfangenen Steuersignals, Bestimmen eines gewünschten zweiten Zustands des zumindest einen ausgewählten Phonems auf der Grundlage des empfangenen Steuersignals, Ändern zumindest eines Teils des ausgewählten Phonems, um das ausgewählte Phonem in den spezifizierten zweiten Zustand zu überführen, auf der Grundlage eines Regelwerks, und Umwandeln des Phonems in dem zweiten Zustand in ein akustisches Signal zur Ausgabe aus der akustischen Ausgabeeinrichtung.
摘要:
Es wird eine Technik zur Ausgabe eines akustischen Signals mittels eines Navigationssystems vorgestellt, wobei das Navigationssystem zumindest eine Datenbank und eine akustische Ausgabeeinrichtung umfasst. Ein Verfahrensaspekt der Technik umfasst die Schritte Speichern einer Vielzahl von Phonemen in einem ersten Zustand in der zumindest einen Datenbank, Auswählen zumindest eines der Vielzahl von Phonemen auf der Grundlage eines im Rahmen einer Routenführung empfangenen Steuersignals, Bestimmen eines gewünschten zweiten Zustands des zumindest einen ausgewählten Phonems auf der Grundlage des empfangenen Steuersignals, Ändern zumindest eines Teils des ausgewählten Phonems, um das ausgewählte Phonem in den spezifizierten zweiten Zustand zu überführen, auf der Grundlage eines Regelwerks, und Umwandeln des Phonems in dem zweiten Zustand in ein akustisches Signal zur Ausgabe aus der akustischen Ausgabeeinrichtung.
摘要:
The invention relates to a method for speech signal analysis, modification and synthesis comprising a phase for the location of analysis windows by means of an iterative process for the determination of the phase of the first sinusoidal component and comparison between the phase value of said component and a predetermined value, a phase for the selection of analysis frames corresponding to an allophone and readjustment of the duration and the fundamental frequency according to certain thresholds and a phase for the generation of synthetic speech from synthesis frames taking the information of the closest analysis frame as spectral information of the synthesis frame and taking as many synthesis frames as periods that the synthetic signal has. The method allows a coherent location of the analysis windows within the periods of the signal and the exact generation of the synthesis instants in a manner synchronous with the fundamental period.
摘要:
The method is creating a speech output from a succession of input linguistic target elements including target characteristics, where the speech output is formed by concatenating a sequence of selected waveform units, each selected waveform unit corresponding to an input linguistic target element. The method includes repeating iterative sequences of forward steps, backward steps and the creating of speech output until the forward steps have reached the final target element. The same optimal sequence of selected waveform units for all target elements of a succession of input linguistic target elements starting with an initial target element and ending with a final target element as the standard Viterbi search are emitted but the optimal units become available in a pipelined manner without requiring the calculation of path costs for the final target element and without complete backtracking form the final to the initial target element. The latency, i.e. the amount of computation time before outputting selected waveform units for a beginning part of the target sequence is much shorter than in a Viterbi search.