专利检索 cpc:"G10L13/04" 第 1 页

1.

发明申请
移动终端及联系人标识方法审中-公开

公开(公告)号：WO2017114048A1

公开(公告)日：2017-07-06

申请号：PCT/CN2016/107329

申请日：2016-11-25

申请人： 努比亚技术有限公司

发明人： 张圣杰 , 金蓉

IPC分类号： H04M1/2745 , G10L13/04 , H04M1/725

CPC分类号： G10L13/04 , H04M1/2745 , H04M1/725

摘要： 一种移动终端及联系人标识方法，其中，该联系人标识方法包括：当接收到联系人标识指令时，获取待标识联系人对应的三维形象及声纹特征信息；采用获取的三维形象及声纹特征信息对该待标识联系人进行标识，以在查看该待标识联系人信息时，进行具有该待标识联系人的三维形象及声纹特征信息的语音播报。

2.

发明申请
音制御装置、音制御方法、および音制御プログラム审中-公开
标题翻译：声控装置，声控方法和声控方案

公开(公告)号：WO2016152717A1

公开(公告)日：2016-09-29

申请号：PCT/JP2016/058494

申请日：2016-03-17

申请人： ヤマハ株式会社

发明人： 濱野　桂三 , 太田　良朋 , 柏瀬　一輝

IPC分类号： G10L13/02 , G10L13/00 , G10L13/033 , G10L13/10 , G10H1/08

CPC分类号： G10L13/06 , G10H1/057 , G10H1/08 , G10H7/008 , G10H2220/005 , G10H2220/285 , G10H2250/455 , G10L13/027 , G10L13/04 , G10L13/08

摘要： 音制御装置は、操作子に対する第１操作、および前記第１操作よりも後に行われる前記操作子に対する第２操作を検出する検出部と、前記第２操作が検出されたことに応答して、第２音の出力を開始させる制御部とを備える。前記制御部は、前記第１操作が検出されたことに応答して、前記第２音の出力を開始させる前に第１音の出力を開始させる。

摘要翻译： 一种声音控制装置，配备有检测单元，用于检测操作元件的第一操作和在第一操作之后执行的操作元件的第二操作;以及控制单元，用于响应于第二操作元件的检测而开始输出第二声音操作。响应于检测到第一操作，控制单元开始输出开始输出第二声音之前的第一声音。

3.

发明申请
APPARATUS AND METHOD FOR PROCESSING AN AUDIO SIGNAL TO OBTAIN A PROCESSED AUDIO SIGNAL USING A TARGET TIME-DOMAIN ENVELOPE 审中-公开
标题翻译：用于处理音频信号以获得使用目标时域包络的处理音频信号的装置和方法

公开(公告)号：WO2016135132A1

公开(公告)日：2016-09-01

申请号：PCT/EP2016/053752

申请日：2016-02-23

申请人： FRAUNHOFER-GESELLSCHAFT ZUR FÖRDERUNG DER ANGEWANDTEN FORSCHUNG E.V. , FRIEDRICH-ALEXANDER-UNIVERSITAET ERLANGEN-NUERNBERG

发明人： DITTMAR, Christian , MÜLLER, Meinard , DISCH, Sascha

IPC分类号： G10L19/03 , G10L21/0272 , G10L21/0388 , G10L25/03

CPC分类号： G10L19/03 , G10L13/04 , G10L21/0272 , G10L21/0388 , G10L25/03

摘要： Subject of the invention is an apparatus (2) described by a schematic block diagram for processing an audio signal (4) to obtain a processed audio signal (6). The apparatus (2) comprises a phase calculator (8) for calculating phase values (10) for spectral values of a sequence of frequency-domain frames (12) representing overlapping frames of the audio signal (4). Moreover, the phase calculator 8 is configured to calculate the phase values (10) based on information on a target time-domain envelope (14) related to the processed audio signal (6), so that the processed audio signal (6) has at least in an approximation the target time-domain envelope (14) and a spectral envelope determined by the sequence of frequency-domain frames (12).

摘要翻译： 本发明的主题是通过用于处理音频信号（4）以获得经处理的音频信号（6）的示意性框图描述的装置（2）。装置（2）包括相位计算器（8），用于计算表示音频信号（4）的重叠帧的频域帧序列（12）的频谱值的相位值（10）。此外，相位计算器8被配置为基于与处理的音频信号（6）相关的目标时域包络（14）的信息来计算相位值（10），使得处理后的音频信号（6）处于至少近似于目标时域包络（14）和由频域帧（12）的序列确定的频谱包络。

4.

发明申请
音声合成装置、音声合成方法およびプログラム审中-公开
标题翻译：语音合成设备，语音合成方法和程序

公开(公告)号：WO2016067766A1

公开(公告)日：2016-05-06

申请号：PCT/JP2015/075638

申请日：2015-09-09

申请人： 株式会社東芝 , 東芝ソリューション株式会社

发明人： 平野　薫 , 鈴木　優 , 水谷　博之

IPC分类号： G10L13/10

CPC分类号： G10L13/10 , G10L13/033 , G10L13/0335 , G10L13/04

摘要： 　実施形態の音声合成装置（１）は、コンテンツ選択部（１０）と、コンテンツ生成部（２０）と、コンテンツ登録部（３０）と、を備える。コンテンツ選択部（１０）は、音声合成の対象となるテキストに対して音声合成を制御するタグ情報が付加されたタグ付きテキストを含むコンテンツであって、コンテンツ記憶部（４０）に登録されている複数のコンテンツの中から、選択コンテンツを決定する。コンテンツ生成部（２０）は、選択コンテンツに含まれるタグ付きテキストのタグ情報を、指定されたテキストに適用して新たなコンテンツを生成する。コンテンツ登録部（３０）は、生成された新たなコンテンツをコンテンツ記憶部（４０）に登録する。

摘要翻译： 一个实施例中的语音合成装置（1）具有内容选择单元（10），内容生成单元（20）和内容登记单元（30）。内容选择单元（10）从登记在内容存储单元（40）中的多个内容中确定所选择的内容，所述内容包括标记文本，所述标签文本提供有附加到作为语音对象的文本的语音合成的标签信息合成。内容生成单元（20）通过向指定文本应用包含在所选择的内容中的标签文本的标签信息来生成新内容。内容注册单元（30）将所生成的新内容登记在内容存储单元（40）中。

5.

发明申请
一种基于视觉手势的点读方法和装置审中-公开

公开(公告)号：WO2016029581A1

公开(公告)日：2016-03-03

申请号：PCT/CN2014/092851

申请日：2014-12-03

申请人： 华南理工大学

发明人： 许望 , 徐向民 , 邢晓芬

IPC分类号： G09B5/06

CPC分类号： G09B17/006 , G06F3/017 , G06F3/167 , G06K9/00355 , G06K9/2081 , G06T2207/10024 , G06T2207/20104 , G06T2207/20112 , G06T2207/30196 , G09B5/062 , G09B19/06 , G10L13/00 , G10L13/04 , G10L15/22

摘要： 本发明提供一种基于视觉手势的点读方法和装置。所述方法包括：用户通过手指在书本上需点读区域画圈；摄像头捕捉手指画圈动作，图像处理模块根据轮廓分析算法获取指尖位置且得出轨迹上下左右四个方向边缘端点，根据上下左右四个端点拟合成矩形，从而对矩形区域内容进行文字或图形等内容识别；而后进行语音合成技术并将语音信息反馈给用户实现点读功能。所述装置可戴在用户头上，包括一个摄头和安装在装置两边的骨传导耳机。该装置结合了先进的可穿戴理念，使用户在学习的时候摆脱了手持电子设备的束缚，可基于现实的普通书本获得智能点读的学习指导。

6.

发明申请
ADVANCED RECURRENT NEURAL NETWORK BASED LETTER-TO-SOUND 审中-公开
标题翻译：先进的基于神经网络的语音信号

公开(公告)号：WO2015191651A1

公开(公告)日：2015-12-17

申请号：PCT/US2015/034993

申请日：2015-06-10

申请人： MICROSOFT TECHNOLOGY LICENSING, LLC

发明人： ZHAO, Pei , YAO, Kaisheng , LEUNG, Max , HWANG, Mei-Yuh , ZHAO, Sheng , YAN, Bo , ZWEIG, Geoffrey , ALLEVA, Fileno A.

IPC分类号： G10L13/04

CPC分类号： G10L13/08 , G06N3/02 , G06N3/0445 , G10L13/04

摘要： The technology relates to performing letter-to-sound conversion utilizing recurrent neural networks (RNNs). The RNNs may be implemented as RNN modules for letter-to-sound conversion. The RNN modules receive text input and convert the text to corresponding phonemes. In determining the corresponding phonemes, the RNN modules may analyze the letters of the text and the letters surrounding the text being analyzed. The RNN modules may also analyze the letters of the text in reverse order. The RNN modules may also receive contextual information about the input text. The letter-to-sound conversion may then also be based on the contextual information that is received. The determined phonemes may be utilized to generate synthesized speech from the input text.

摘要翻译： 该技术涉及利用循环神经网络（RNN）执行字母到声音转换。 RNN可以被实现为用于字母到声音转换的RNN模块。 RNN模块接收文本输入并将文本转换为相应的音素。在确定相应的音素时，RNN模块可以分析文本的字母和正在分析的文本周围的字母。 RNN模块还可以以相反的顺序分析文本的字母。 RNN模块还可以接收关于输入文本的上下文信息。然后，字母对声音的转换也可以基于所接收的上下文信息。所确定的音素可用于从输入文本生成合成语音。

7.

发明申请
SYSTEM AND METHOD FOR USER-SPECIFIED PRONUNCIATION OF WORDS FOR SPEECH SYNTHESIS AND RECOGNITION 审中-公开
标题翻译：用于用户指定的语音合成和识别词汇的系统和方法

公开(公告)号：WO2014197334A3

公开(公告)日：2015-01-29

申请号：PCT/US2014040393

申请日：2014-05-30

申请人： APPLE INC , NAIK DEVANG K , WEINER LIAM , BINDER JUSTIN G , SRISUWANANUKORN CHARLES , EVERMANN GUNNAR , WILLIAMS SHAUN , CHEN HONG , NAPOLITANO LIA T

发明人： NAIK DEVANG K , WEINER LIAM , BINDER JUSTIN G , SRISUWANANUKORN CHARLES , EVERMANN GUNNAR , WILLIAMS SHAUN , CHEN HONG , NAPOLITANO LIA T , GRUBER THOMAS R

IPC分类号： G10L13/00 , G10L13/04 , G10L15/22 , G10L15/26

CPC分类号： G10L13/027 , G10L13/04 , G10L13/08 , G10L15/063 , G10L15/22 , G10L15/26 , G10L15/265 , G10L2015/0631 , G10L2015/0638

摘要： The method is performed at an electronic device with one or more processors and memory storing one or more programs for execution by the one or more processors. A first speech input including at least one word is received. A first phonetic representation of the at least one word is determined, the first phonetic representation comprising a first set of phonemes selected from a speech recognition phonetic alphabet. The first set of phonemes is mapped to a second set of phonemes to generate a second phonetic representation, where the second set of phonemes is selected from a speech synthesis phonetic alphabet. The second phonetic representation is stored in association with a text string corresponding to the at least one word.

摘要翻译： 该方法在具有一个或多个处理器的电子设备中执行，存储器存储一个或多个程序以供一个或多个处理器执行。接收包括至少一个字的第一语音输入。确定所述至少一个单词的第一语音表示，所述第一语音表示包括从语音识别语音字母表中选择的第一组音素。将第一组音素映射到第二组音素以产生第二语音表示，其中从语音合成语音字母表中选择第二组音素。第二语音表示与对应于至少一个单词的文本串相关联地存储。

8.

发明申请
METHOD FOR PROVIDING TRANSLATIONS TO AN E-READER AND SYSTEM THEREOF 审中-公开
标题翻译：向电子阅读器及其系统提供翻译的方法

公开(公告)号：WO2013134090A1

公开(公告)日：2013-09-12

申请号：PCT/US2013/028802

申请日：2013-03-04

申请人： ORTSBO INC.

发明人： HALE, Mark Charles

IPC分类号： G06F17/28 , G06F3/14 , G06F3/16 , G10L13/08

CPC分类号： G06F17/289 , G10L13/04

摘要： An eReader displays contents of an eBook and, in response to a user request, obtains a translation of text in the eBook and displays the translated text. Optionally, the eReader uses text-to-speech technology to read the translated text to the user.

摘要翻译： 电子阅读器显示电子书的内容，并且响应于用户请求，获得电子书中的文本的翻译并显示翻译的文本。可选地，电子阅读器使用文本到语音技术来将翻译的文本读取到用户。

9.

发明申请
VERFAHREN UND EINRICHTUNG ZUR PHONETISIERUNG VON TEXTENTHALTENDEN DATENSÄTZEN 审中-公开
标题翻译：方法和装置phonetization TEXT含RECORDS

公开(公告)号：WO2013120794A1

公开(公告)日：2013-08-22

申请号：PCT/EP2013/052650

申请日：2013-02-11

申请人： CONTINENTAL AUTOMOTIVE GMBH

发明人： WALTHER, Jens

IPC分类号： G10L13/04 , G10L13/08

CPC分类号： G06F17/2785 , G10L13/04 , G10L13/08 , G10L15/08 , G10L15/18 , G10L15/187 , G10L15/22

摘要： Es werden Verfahren zur Phonetisierung von textenthaltenden Datensätzen (2) und eine zur Durchführung des Verfahrens eingerichtete Einrichtung beschrieben, bei denen die als Grapheme vorliegenden Datensätze (2) in Phoneme konvertiert und als phonetisierte Datensätze (8) gespeichert werden, wobei die Grapheme in einer Präprozessierung für die Phonetisierung aufbereitet werden, insbesondere indem die Grapheme sprachdefiniert und/oder benutzerdefiniert modifiziert werden. Es ist vorgesehen, dass die Präprozessierung der Grapheme und die Konvertierung der Grapheme in Phoneme parallel auf unterschiedlichen Recheneinheiten (5, 6) oder unterschiedlichen Teilen von Recheneinheiten (5, 6) durchgeführt wird.

摘要翻译： 方法的包含文本数据的记录（2）phonetization和布置被描述用于执行在其中存在作为字形记录转换为音素（2）的处理设备和作为phonetisierte记录（8），其特征在于，在预处理的字形存储由字形的处理有phonetization，特别是所述定义和/或修改的用户定义的。可以设想，该字形的预处理和字形的上不同的处理单元（5，6）或处理单元的不同部分转换成音素并联（5,6）的处理。

10.

发明申请
SYNTHETISEUR NUMERIQUE AUDIO AMELIORE 审中-公开
标题翻译：改进的数字音频合成器

公开(公告)号：WO2011161372A1

公开(公告)日：2011-12-29

申请号：PCT/FR2011/051425

申请日：2011-06-21

申请人： INRIA INSTITUT NATIONAL DE RECHERCHE EN INFORMATIQUE ET EN AUTOMATIQUE , UNIVERSITÉ DE NANCY 1 HENRI POINCARÉ , DI MARTINO, Joseph , PIERRON, Laurent

发明人： DI MARTINO, Joseph , PIERRON, Laurent

IPC分类号： G10H7/10 , G10L13/02

CPC分类号： G06F17/00 , G10H2210/155 , G10H2210/285 , G10H2250/005 , G10H2250/031 , G10H2250/235 , G10H2250/281 , G10H2250/471 , G10L13/02 , G10L13/04 , G10L19/00 , G10L19/022 , G10L25/18 , G10L2021/0135

摘要： Un synthétiseur numérique audio qui comprend : une mémoire d'entrée pour recevoir une suite de données numériques représentatives du spectre d'amplitude d'un signai audio, sur des fenêtres temporelles consécutives et chevauchantes, un calculateur (120), agencé pour recevoir en entrée un jeu de données numériques d'esquisse d'une fenêtre courante comprenant en début de fenêtre des données extrapolées d'amplitude, et des valeurs nulles pour le reste de la fenêtre, et pour établir en réponse une représentation numérique de la transformée de Fourier discrète complexe de ce jeu, un composeur (130), agencé pour combiner l'entrée de spectre d'amplitude associée à la fenêtre courante considérée et la représentation numérique déterminée par le calculateur, et pour appeler le calculateur (120) avec les données résultantes pour établir une représentation numérique de la transformée de Fourier discrète complexe inverse correspondante, ce qui fournit, un jeu de données numériques estimées, relatives à la fenêtre courante considérée, et un additionneur (140), pour cumuler sélectivement les données numériques estimées qui correspondent à un même temps, le composeur ( 130) est agencé pour calculer un jeu de données numériques auxiliaires (Xi(n)), en prenant le jeu de données numériques estimées (z(n)) courant, divisé par une fonction de fenêtre sur chaque fenêtre temporelle, l'additionneur (140) est agencé pour ajouter le jeu de données numériques estimées courant multiplié par la fonction de fenêtre (H) à la valeur précédente du cumul, un cxtrapolateur (110) agencé pour calculer le jeu de données numériques d'esquisse pour une fenêtre courante à partir du jeu de données numériques auxiliaires de la fenêtre précédente multiplié sélectivement par le carré de la fonction de fenêtre.

摘要翻译： 本发明涉及一种数字音频合成器，包括：输入存储器，用于在连续和重叠的时间窗口上接收表示音频信号的幅度谱的数字数据序列; 计算机（120），被设置为接收在窗口开始处包括幅度外推数据的活动窗口的草图数字数据集作为输入，并且为窗口的其余部分接收零值，作为响应，用于所述集合的离散复数傅里叶变换的数字表示; 拨号器（130），其被设置为将对应于所讨论的活动窗口的振幅谱输入与由计算机预定的数字表示组合，并且利用所得到的数据来呼叫计算机（120），以建立相应的复数离散傅立叶逆变换的数字表示，其提供与所讨论的活动窗口相关的一组估计的数字数据; 以及用于选择性地累积对应于单个时间段的估计数字数据的加法器（140）。拨号器（130）被设置为通过在每个时间窗口上采用由窗函数划分的估计数字数据的活动集（z（n））来计算辅助数字数据集（Xi（n））。加法器（140）被设置为将累加的总数中具有前一值的窗函数（H）乘以估计数字数据的有效集合。所述数字音频合成器还包括外推器（110），其被设置为从前一窗口的辅助数字数据组计算用于有效窗口的草图数字数据集，所述辅助数字数据组选择性地乘以窗口功能。

搜索结果

国家/区域

专利有效性

申请日

公布(公告)日

申请人

申请人所在国/区域

发明人

IPC

IPC部

IPC大类

IPC小类

IPC大组

IPC小组

外观分类