情報処理装置、情報処理方法およびプログラム
    1.
    发明申请
    情報処理装置、情報処理方法およびプログラム 审中-公开
    信息处理设备,信息处理方法和程序

    公开(公告)号:WO2017149866A1

    公开(公告)日:2017-09-08

    申请号:PCT/JP2016/084966

    申请日:2016-11-25

    Inventor: 井上 正則

    CPC classification number: G10L13/06 G10L13/10 G10L17/00

    Abstract: 【課題】音声要素情報の収集におけるユーザの負担を軽減することが可能な仕組みを提供する。 【解決手段】発話の際に取得される情報に基づいて話者を識別する話者識別部と、識別された前記話者と前記話者の音声に基づいて生成される音声要素情報との対応関係情報を生成する情報生成部と、を備える情報処理装置。プロセッサを用いて、発話の際に取得される情報に基づいて話者を識別することと、識別された前記話者と前記話者の音声に基づいて生成される音声要素情報との対応関係情報を生成することと、を含む情報処理方法。発話の際に取得される情報に基づいて話者を識別する話者識別機能と、識別された前記話者と前記話者の音声に基づいて生成される音声要素情報との対応関係情報を生成する情報生成機能と、をコンピュータに実現させるためのプログラム。

    Abstract translation: 为了提供在

    一个能够降低语音单元信息机构的集合中的用户的负担的。 标识是基于扬声器的声音产生,并确定了扬声器的语音单元信息之间的对应的语音期间获取的信息的基础上的扬声器的扬声器识别单元 以及生成关系信息的信息生成单元。 使用处理器,并且识别的话音期间获得的信息的基础上,扬声器,语音单元信息之间的对应信息生成基于所述扬声器的声音,并确定了扬声器 ;并生成信息。 产生识别的讲话过程中获得的信息的基础上的扬声器的扬声器识别功能,所述语音单元信息之间的对应关系信息所生成基于所述说话人的声音,并确定了扬声器 以及使计算机实现的信息生成功能。

    SYSTEM AND METHOD FOR OUTLIER IDENTIFICATION TO REMOVE POOR ALIGNMENTS IN SPEECH SYNTHESIS
    2.
    发明申请
    SYSTEM AND METHOD FOR OUTLIER IDENTIFICATION TO REMOVE POOR ALIGNMENTS IN SPEECH SYNTHESIS 审中-公开
    用于在语音合成中移除不良对齐的外部识别的系统和方法

    公开(公告)号:WO2016200391A1

    公开(公告)日:2016-12-15

    申请号:PCT/US2015/035342

    申请日:2015-06-11

    CPC classification number: G10L13/06 G10L15/00 G10L2025/906

    Abstract: A system and method are presented for outlier identification to remove poor alignments in speech synthesis. The quality of the output of a text-to-speech system directly depends on the accuracy of alignments of a speech utterance. The identification of mis-alignments and mis-pronunciations from automated alignments may be made based on fundamental frequency methods and group delay based outlier methods. The identification of these outliers allows for their removal, which improves the synthesis quality of the text-to-speech system.

    Abstract translation: 提出了一种系统和方法,用于异常值识别,以消除语音合成中的不良对准。 文本到语音系统的输出质量直接取决于语音语音对齐的准确性。 可以基于基本频率方法和基于群延迟的异常方法来识别自动比对的误排列和错误发音。 识别这些异常值允许它们的去除,这提高了文本到语音系统的综合质量。

    발명의 명칭 문자열을 발음 단위로 분할하는 방법, 이를 이용하는 문자열의 어조 표현 방법 및 문자열의 어조를 표현하는 동영상 데이터가 저장된 저장매체
    3.
    发明申请
    발명의 명칭 문자열을 발음 단위로 분할하는 방법, 이를 이용하는 문자열의 어조 표현 방법 및 문자열의 어조를 표현하는 동영상 데이터가 저장된 저장매체 审中-公开
    用于将信件序列分配给发信单元的方法,用于表示使用该信令的字母序列的方法以及存储媒体存储视频数据的方法,用于表示字幕序列的文本

    公开(公告)号:WO2013154296A1

    公开(公告)日:2013-10-17

    申请号:PCT/KR2013/002764

    申请日:2013-04-03

    Applicant: 최병기

    Inventor: 최병기

    CPC classification number: G10L15/08 G06F17/20 G10L13/06 G10L25/57

    Abstract: (57) 요 약 본 발명은 문자열에서 어조 표현을 위해 데이터를 추출할 수 있는 발음 단위 분할 방법 및 발음 단위별로 추출된 데이터에 의하여 문자열이 디스플레이되는 동영상 프레임 내의 문자 속성을 변화시킴으로써 문자열의 어조를 표현하는 방법에 관한 것이다. 본 발명에 따른 문자열을 발음 단위로 분할하는 방법은 문자열의 음성 파형에서 음성 강도(Intensity)의 극대점과 극소점을 추출하는 단계 및 상기 추출된 극대점을 그룹핑하여 그룹을 형성하는 단계 및 상기 그룹의 양쪽에 있는 극소점, 음성 시작점 또는 음성 종료점 중 그룹 양쪽으로 가장 근접되어 있는 점을 경계로 문자열을 발음 단위로 분할하는 단계를 포함한다. 또한, 본 발명에 따른 문자열의 어조 표현 방법은 상기 문자열을 발음 단위로 분할하는 방법에 의하여 문자열을 발음 단위로 분할하는 단계, 상기 분할된 발음 단위별로 대표 어조 데이터를 추출하는 단계, 상기 추출된 대표 어조 데이터로부터 동영상 프레임별 어조 데이터를계산하여 동영상 프레임별로 문자 속성을 부여하는 단계 및 상기 문자 속성이 부여된 동영상 프레임을 동영상으로 재생하는 단계를 포함한다.

    Abstract translation: 本发明涉及一种能够提取用于表示来自字母序列之间的音调的数据的发音单元的方法以及通过改变显示字母的视频帧中的字母属性来表示字母序列的音调的方法。 基于每个发音单元的提取数据的序列。 用于分割发音单元的方法包括以下步骤:提取字母序列的语音波形中的语音强度最大值和最小值; 通过将提取的最大值组合在一起形成组; 将字母序列分成围绕组中任一侧最近点的发音单元,从组的两侧的最小值,语音起始点和语音终点中。 此外,用于表示字母序列的音调的方法包括以下步骤:使用分割发音单位的方法将字母序列划分成发音单元; 提取每个划分的发音单元的代表性音调数据; 从所提取的代表性音调数据中计算每个视频帧的色调数据,并将字母属性分配给每个视频帧; 并且将分配了字母属性的视频帧播放为视频。

    素片情報生成装置、音声合成装置、音声合成方法および音声合成プログラム
    4.
    发明申请
    素片情報生成装置、音声合成装置、音声合成方法および音声合成プログラム 审中-公开
    片段信息生成设备,音频组合设备,音频组合方法和音频组合程序

    公开(公告)号:WO2012160767A1

    公开(公告)日:2012-11-29

    申请号:PCT/JP2012/003060

    申请日:2012-05-10

    Inventor: 加藤 正徳

    CPC classification number: G10L13/00 G10L13/06

    Abstract:  少ない計算量で波形を生成でき、素片作成元である自然音声のピッチ周波数が低い区間の素片を用いた場合にも、合成音声の音質低下を防止でき、また合成音声の音質を損なうことなくピッチ周波数が高い区間の素片情報のデータ量を削減できる素片情報生成装置を提供する。波形切り出し手段81は、自然音声のピッチ周波数に依存しない時間周期で、自然音声から音声波形を切り出す。特徴パラメータ抽出手段82は、波形切り出し手段81によって切り出された音声波形から、その音声波形の特徴パラメータを抽出する。時間領域波形生成手段83は、特徴パラメータに基づいて時間領域波形を生成する。

    Abstract translation: 提供了一种片段信息生成装置,通过该片段信息生成装置,可以生成具有少量计算的波形,即使使用具有作为片段创建源的低自然音频间隔频率片段的片段信息生成装置也是可能的 以避免复合音频的声音质量下降,并且可以降低具有高音调频率间隔的片段的信息数据量,而不损害复合音频的音质。 波形裁剪装置(81)在不依赖于自然音频音调频率的时间段内从自然音频中播放音频波形。 特征参数提取装置(82)从所述音频波形中提取由波形裁剪装置(81)裁剪的音频波形的特征参数。 时域波形生成部(83)基于特征参数生成时间域波形。

    音声合成装置及び音声合成方法
    5.
    发明申请
    音声合成装置及び音声合成方法 审中-公开
    语音合成和语音合成方法

    公开(公告)号:WO2010110095A1

    公开(公告)日:2010-09-30

    申请号:PCT/JP2010/054250

    申请日:2010-03-12

    Abstract:  音声合成装置は、話者の音声に相当するピッチ波形毎に用意され、各ピッチ波形に含まれる複数のホルマントの各々に関するホルマント周波数、ホルマント位相、ホルマントパワー及び窓関数を含む話者パラメータを話者毎に1つずつ選択して、複数の話者パラメータ(421,・・・,42M)を得る選択部(42)と、ホルマント周波数及び前記ホルマントパワーに基づくコスト関数を利用して複数の話者パラメータの間でホルマント同士の対応付けを行うマッピング部(43)と、マッピング部(43)によって互いに対応付けられているホルマント同士でホルマント周波数、ホルマント位相、ホルマントパワー及び窓関数を所望の補間比率に従って補間して補間話者パラメータを生成する生成部(44)とを具備する。

    Abstract translation: 语音合成装置包括:选择单元,选择为与扬声器的声音相对应的每个音调波形准备的扬声器参数,包括共振峰频率,共振峰相位,共振峰功率和窗函数, 为了获得多个扬声器参数(421,...,42M),每个音调波形中包含的多个共振峰,一个接一个地用于每个扬声器。 映射单元(43),用于基于共振峰频率和共振峰功率,使用成本函数来关联多个说话者参数中的共振峰; 以及生成单元(44),用于通过根据所需的内插比在通过映射单元(43)相关联的共振峰之间内插所述共振峰频率,共振峰相位,共振峰功率和窗函数来产生内插的扬声器参数 )。

    METHOD AND SYSTEM FOR TRAINING A TEXT-TO-SPEECH SYNTHESIS SYSTEM USING A SPECIFIC DOMAIN SPEECH DATABASE
    6.
    发明申请
    METHOD AND SYSTEM FOR TRAINING A TEXT-TO-SPEECH SYNTHESIS SYSTEM USING A SPECIFIC DOMAIN SPEECH DATABASE 审中-公开
    使用特定领域语音数据库训练文本到语音合成系统的方法和系统

    公开(公告)号:WO2008030756A2

    公开(公告)日:2008-03-13

    申请号:PCT/US2007/077227

    申请日:2007-08-30

    CPC classification number: G10L13/06 G10L13/04 G10L15/22

    Abstract: A system, method and computer readable medium that trains a text-to-speech synthesis system for use in speech synthesis is disclosed. The method may include recording audio files of one or more live voices speaking language used in a specific domain, the audio files being recorded using various prosodies, storing the recorded audio files in a speech database; and training a text-to-speech synthesis system using the speech database, wherein the text-to-speech synthesis system selects audio selects audio segments having a prosody based on at least one dialog state and one speech act.

    Abstract translation: 公开了一种训练用于语音合成的文本到语音合成系统的系统,方法和计算机可读介质。 该方法可以包括记录在特定域中使用的一种或多种现场语音的音频文件,使用各种假象记录音频文件,将记录的音频文件存储在语音数据库中; 以及使用所述语音数据库训练文本到语音合成系统,其中所述文本到语音合成系统选择音频选择基于至少一个对话状态和一个语音行为具有韵律的音频段。

    SYSTEME DE SYNTHESE VOCALE AYANT DES PARAMETRES PROSODIQUES MODIFIABLES PAR UN OPERATEUR
    7.
    发明申请
    SYSTEME DE SYNTHESE VOCALE AYANT DES PARAMETRES PROSODIQUES MODIFIABLES PAR UN OPERATEUR 审中-公开
    具有操作者可修改的前置参数的语音合成系统

    公开(公告)号:WO2007028871A1

    公开(公告)日:2007-03-15

    申请号:PCT/FR2006/001967

    申请日:2006-08-22

    CPC classification number: G10L13/033 G10L13/04 G10L13/06

    Abstract: L'invention concerne un système de synthèse vocale d'un texte par concaténation d'unités acoustiques comportant des moyens de : - génération (6) d'une prosodie cible sous forme d'un ensemble de paramètres prosodiques ; - sélection (7) d'unités acoustiques candidates ; et - traitement du signal (8) pour créer le signal sonore comportant : - des moyens (10) de concaténation des unités acoustiques candidates en un premier flux intermédiaire, et - des moyens (11) de modification prosodique de ce flux sonore intermédiaire en fonction de la prosodie cible afin d'obtenir le signal sonore, et ledit système comportant - des moyens (9) d'écoute du signal sonore final par un utilisateur, et - des moyens (12) d'édition par l'utilisateur des paramètres du système de synthèse vocale, pour éditer la prosodie générée avec le signal sonore et modifier les paramètres prosodiques des moyens (7) de sélection d'unités et/ou des moyens (11) de modification prosodique avant la création d'un nouveau signal sonore.

    Abstract translation: 本发明涉及一种用于语音单元的语音合成的系统,包括用于产生(6)一组韵律参数形式的目标韵律的装置, 选择(7)候选声单元; 以及处理所述信号(8)以产生声音信号,包括:用于将所述候选声音单元级联成第一中间流的装置(10) 以及用于基于所述目标韵律对所述中间音频流进行韵律修改以便获得所述声音信号的装置(11),并且所述系统包括:使得最终声音信号能够被用户收听的装置(9) 以及使得语音合成系统能够由用户编辑的装置(12),用于编辑用声音信号产生的韵律并修改单元选择装置(7)和/或韵律修改装置(11)的韵律参数 ),然后再创建一个新的声音信号。

    音声合成装置および方法
    8.
    发明申请
    音声合成装置および方法 审中-公开
    语音合成设备和方法

    公开(公告)号:WO2005109399A1

    公开(公告)日:2005-11-17

    申请号:PCT/JP2005/006489

    申请日:2005-04-01

    Inventor: 廣瀬 良文

    CPC classification number: G10L13/033 G10L13/06 G10L2021/0135

    Abstract:  合成音を生成した際に音質が著しく低下することのない音声合成装置は、目標素片情報生成部(102)と、素片データベース(103)と、素片選択部(104)と声質指定部(105)と、声質変換部(106)と、歪み判定部(108)と、目標素片情報修正部(109)とを備え、声質変換部(106)により変換された音声素片が歪み判定部(108)により歪んでいると判断された場合には、目標素片情報修正部(109)が、目標素片情報生成部(102)で生成された音声素片情報を変換後の声質の音声素片情報に修正し、素片選択部(104)が音声素片を再選択する。このことにより、合成音の音質を劣化させることなく、声質指定部(105)により指定された声質の合成音を生成することが可能となる。

    Abstract translation: 提供了一种用于创建合成语音而不显着降低语音质量的语音合成装置。 语音合成装置包括:目标语音片信息生成部(102); 语音片数据库(103); 语音片选择单元(104); 语音质量指标单元(105); 语音质量转换单元(106); 失真判断单元(108); 和目标语音片信息校正单元(109)。 当由语音质量转换单元(106)转换的语音片段被失真判断单元(108)判断为失真时,目标语音片段信息校正单元(109)将由目标语音片段信息创建的语音片段信息 创建单元(102)转换成转换之后的语音质量的语音片段信息,并且语音片段选择单元(104)重新选择语音片段。 因此,在不降低合成语音的语音质量的情况下,可以创建由语音质量指定单元(105)指定的语音质量的合成语音。

    音声合成システム
    9.
    发明申请
    音声合成システム 审中-公开
    语音合成系统

    公开(公告)号:WO2004097792A1

    公开(公告)日:2004-11-11

    申请号:PCT/JP2003/005492

    申请日:2003-04-28

    Inventor: 片江 伸之

    CPC classification number: G10L13/07 G10L13/06

    Abstract: 本発明では、合成音声単位列に対して最適な音声素片データの組み合わせを選択することで、音質を向上させることが可能な音声合成システムの提供を目的とする。このような目的を解決するために、音声合成システムは、音声素片データを格納する素片蓄積部と、任意の音声単位列に対し、素片蓄積部に蓄積された音声素片データを用いて構成される音声素片データの組み合わせおよびその適否情報を含む素片選択情報を格納する素片選択情報蓄積部と、素片選択情報蓄積に格納されている素片選択情報に基づいて、合成パラメータに対して最適となる音声素片データの組み合わせを素片蓄積部から選択する素片選択部と、素片選択部で選択された音声素片データの組み合わせに基づいて音声波形データを生成する波形生成部とを備える。

    Abstract translation: 一种语音合成系统,其通过选择最适合于合成语音单元序列的音素数据的组合来产生改善的语音质量的语音。 语音合成系统包括存储音素数据的音素存储部分,音素选择信息存储部分,其中音素选择信息包括由存储在用于任意语音单元序列的音素存储部分中的音素数据构成的音素数据的组合和适当信息 表示存储组合的适当性,音素选择部分,用于根据存储在音素存储部分中的音素选择信息来选择最适合于合成参数的音素数据的组合;以及波形产生部分,用于从 由音素选择部分选择的音素数据的组合。

    言語処理装置
    10.
    发明申请
    言語処理装置 审中-公开
    语言处理器

    公开(公告)号:WO2002086861A1

    公开(公告)日:2002-10-31

    申请号:PCT/JP2002/003899

    申请日:2002-04-19

    CPC classification number: G10L13/10 G10L13/06

    Abstract: A language processor for generating an effective synthetic sound by language processing in consideration of imitative and mimetic words. An effective synthetic sound is generated from a text which is the object of speech synthesis by using a sound expressing the meaning of an imitative or mimetic word contained in the text. An imitative word/mimetic word analysis unit (21) extracts an imitative or mimetic word from a text. An imitative word/mimetic word processing unit (27) generates acoustic data on a sound effect corresponding to the imitative or mimetic word. A sound combining unit (26) superimposes the acoustic data generated by the imitative word/mimetic word processing unit (27) on a part or all of the synthetic sound data generated by a rule combining unit (24) and corresponding to the text. The language processor can be applied to a robot having a speech synthesizer.

    Abstract translation: 一种用于通过语言处理产生有效合成声音的语言处理器,以考虑到模仿和模仿的词语。 通过使用表示文本中包含的模仿或模仿词语的声音的声音从作为语音合成对象的文本生成有效的合成声音。 模仿词/模拟词分析单元(21)从文本中提取模仿或模仿词。 模拟词/模拟词处理单元(27)产生与模仿或模拟词相对应的声音效果的声学数据。 声音组合单元(26)将由模拟词/模拟词处理单元(27)产生的声学数据叠加在由规则组合单元(24)生成并对应于文本的合成声音数据的一部分或全部上。 语言处理器可以应用于具有语音合成器的机器人。

Patent Agency Ranking