专利检索 ap:("中国科学技术大学" OR "科大讯飞股份有限公司") AND inv:"宋锐" 第 1 页

1.

发明授权
一种领域数据获取方法、机器翻译方法及相关设备有权转让

公开(公告)号：CN112417896B

公开(公告)日：2024-02-02

申请号：CN202011210710.9

申请日：2020-11-03

申请人： 中国科学技术大学 , 科大讯飞股份有限公司

发明人： 宋锐 , 张为泰 , 刘丹 , 刘俊华 , 魏思

IPC分类号： G06F40/42 , G06F40/58

摘要： 本申请提供了一种领域数据获取方法、机器翻译方法及相关设备，领域数据获取方法可确定出通用领域的训练语料集中训练语料对应的第一目标值，由于第一目标值能够表征对应的训练语料与指定领域的匹配程度，因此，基于通用领域的训练语料集中训练语料对应的第一目标值，能够从通用领域的训练语料集中筛选出指定领域的训练语料。在此基础上，本申请还提供了一种机器翻译方法，该方法可利用预先建立的领域翻译模型实现指定领域文本的翻译，由于领域翻译模型采用大量指定领域的训练语料对通用翻译模型进行微调得到，因此，其为能够适应于指定领域的翻译模型，利用该翻译模型对指定领域的文本进行翻译，能够获得比较准确的翻译结果。

2.

发明授权
机器翻译模型构建方法、装置以及设备有权转让

公开(公告)号：CN112733552B

公开(公告)日：2024-04-12

申请号：CN202011605010.X

申请日：2020-12-30

申请人： 中国科学技术大学 , 科大讯飞股份有限公司

发明人： 宋锐

IPC分类号： G06F40/56

摘要： 本发明公开了一种机器翻译模型构建方法、装置以及设备，本发明从机器翻译模型训练维度，对目标翻译模型的构建提出改进，具体是通过对多个不同结构参数的待定翻译模型进行训练，并记录当前最优的各待定翻译模型参数，同时结合各待定翻译模型的自身训练，利用当前最优模型对各待定翻译模型进行同步融合训练，经此训练方式便可以使得不同结构参数的待定翻译模型的知识进行交互，由此构建出的目标翻译模型在显著提高翻译质量的同时，更具有较强的鲁棒性。本发明在多个翻译模型的容量、计算效率和翻译效果之间进行均衡，使多个待定翻译模型能够实现在线混合学习，从而可以兼顾机器翻译模型在实际上线时对于翻译效果以及部署操作的双重需求。

3.

发明授权
语音合成方法和相关设备、装置、介质有权

公开(公告)号：CN113488020B

公开(公告)日：2024-04-12

申请号：CN202110751319.8

申请日：2021-07-02

申请人： 科大讯飞股份有限公司

发明人： 宋飞豹 , 江源 , 宋锐 , 侯秋侠

IPC分类号： G10L13/02

摘要： 本申请公开了一种语音合成方法和相关设备、装置、介质，其中，语音合成方法包括：获取以待合成语种表达的待合成文本的待合成音素；利用语音合成模型对待合成音素、待合成对象的对象特征表示和待合成语种的语种特征表示进行合成处理，得到合成语谱图；其中，语音合成模型是利用样本对象的样本数据训练预设语音网络而得到的，样本数据包括样本对象的第一音频、样本对象的对象特征表示和第一音频对应发言语种的语种特征表示，对象特征表示用于表征音色特征、发音特征中至少一者，样本对象包括目标对象及与目标对象的相关对象，且相关对象的对象特征表示与目标对象的对象特征表示相关。上述方案，能够提高语音合成质量。

4.

发明公开
一种语音合成方法、装置、设备及存储介质审中-实审

公开(公告)号：CN115035885A

公开(公告)日：2022-09-09

申请号：CN202210393427.7

申请日：2022-04-15

申请人： 科大讯飞股份有限公司

发明人： 宋飞豹 , 宋锐 , 江源 , 陈凌辉 , 胡郁

IPC分类号： G10L13/027 , G10L13/08 , G10L17/04

摘要： 本发明提供了一种语音合成方法、装置、设备及存储介质，方法包括：获取目标文本对应的音素序列，通过语音合成模型的矢量预测模型将音素序列处理成包含音素信息和目标说话人的说话人信息的矢量，作为目标矢量，通过语音合成模型的语音合成模块对目标矢量进行处理，以生成合成语音。本发明采用目标说话人的单一语种语音和非目标说话人的多语种语音训练得到音频转换模型，进而基于音频转换模型和大量非目标说话人的多语种语音获得大量具有目标说话人音色的多语种语音，从而可利用大量具有目标说话人音色的多语种语音训练得到矢量预测模型，在此基础上构建能够合成目标说话人多语种语音的语音合成模型，经由本发明可合成出目标说话人的多语种语音。

5.

发明公开
语音合成方法和相关设备、装置、介质有权

公开(公告)号：CN113488020A

公开(公告)日：2021-10-08

申请号：CN202110751319.8

申请日：2021-07-02

申请人： 科大讯飞股份有限公司

发明人： 宋飞豹 , 江源 , 宋锐 , 侯秋侠

IPC分类号： G10L13/02

摘要： 本申请公开了一种语音合成方法和相关设备、装置、介质，其中，语音合成方法包括：获取以待合成语种表达的待合成文本的待合成音素；利用语音合成模型对待合成音素、待合成对象的对象特征表示和待合成语种的语种特征表示进行合成处理，得到合成语谱图；其中，语音合成模型是利用样本对象的样本数据训练预设语音网络而得到的，样本数据包括样本对象的第一音频、样本对象的对象特征表示和第一音频对应发言语种的语种特征表示，对象特征表示用于表征音色特征、发音特征中至少一者，样本对象包括目标对象及与目标对象的相关对象，且相关对象的对象特征表示与目标对象的对象特征表示相关。上述方案，能够提高语音合成质量。

6.

发明公开
一种语音合成方法、装置、电子设备和存储介质有权

公开(公告)号：CN112786012A

公开(公告)日：2021-05-11

申请号：CN202011623508.9

申请日：2020-12-31

申请人： 科大讯飞股份有限公司

发明人： 宋飞豹 , 宋锐 , 侯秋侠 , 孟亚洲 , 江源

IPC分类号： G10L13/10

摘要： 本发明提供一种语音合成方法、装置、电子设备和存储介质，其中方法包括：将初始语音输入至韵律学模型，得到韵律学特征；将韵律学特征和目标音色特征输入至语音合成模型，得到语音合成模型输出的合成结果；其中，韵律学模型是基于各第一语音训练得到的，各第一语音是基于相同的第一韵律学特征和不同的音色合成的；语音合成模型是基于各第二语音及其第二韵律学特征和音色特征训练得到的，第二韵律学特征是将第二语音输入韵律学模型得到的。本发明提供的方法、装置、电子设备和存储介质，韵律学模型输出的韵律学特征与音色无关，提高了语音合成的可靠性和准确性；此外，韵律学模型是针对各语种通用的，极大降低了语音合成任务的实现难度。

7.

发明授权
语音合成方法及相关装置和电子设备、存储介质有权

公开(公告)号：CN113793591B

公开(公告)日：2024-05-31

申请号：CN202110768683.5

申请日：2021-07-07

申请人： 科大讯飞股份有限公司

发明人： 宋飞豹 , 江源 , 宋锐 , 侯秋侠

IPC分类号： G10L13/08

摘要： 本申请公开了一种语音合成方法及相关装置和电子设备、存储介质，其中，语音合成方法包括：获取待合成文本的待合成音素；利用语音合成模型对待合成音素进行合成处理，得到合成音频；其中，语音合成模型是利用发言对象的样本数据训练预设语音网络而得到的，样本数据是利用发言对象的第一音频提取得到的，样本数据包括第一音频的样本音素序列以及第一音频的样本音频频谱和样本融合频谱，且样本音素序列包括若干样本音素，样本音频频谱包含若干样本音频帧，样本融合频谱是分别融合各个样本音素对应的样本音频帧而得到的。上述方案，能够提高语音合成质量。

8.

发明授权
一种语音合成方法、装置、电子设备和存储介质有权

公开(公告)号：CN112786012B

公开(公告)日：2024-05-31

申请号：CN202011623508.9

申请日：2020-12-31

申请人： 科大讯飞股份有限公司

发明人： 宋飞豹 , 宋锐 , 侯秋侠 , 孟亚洲 , 江源

IPC分类号： G10L13/10

摘要： 本发明提供一种语音合成方法、装置、电子设备和存储介质，其中方法包括：将初始语音输入至韵律学模型，得到韵律学特征；将韵律学特征和目标音色特征输入至语音合成模型，得到语音合成模型输出的合成结果；其中，韵律学模型是基于各第一语音训练得到的，各第一语音是基于相同的第一韵律学特征和不同的音色合成的；语音合成模型是基于各第二语音及其第二韵律学特征和音色特征训练得到的，第二韵律学特征是将第二语音输入韵律学模型得到的。本发明提供的方法、装置、电子设备和存储介质，韵律学模型输出的韵律学特征与音色无关，提高了语音合成的可靠性和准确性；此外，韵律学模型是针对各语种通用的，极大降低了语音合成任务的实现难度。

9.

发明公开
一种语音合成方法、装置、存储介质及设备审中-实审

公开(公告)号：CN118098198A

公开(公告)日：2024-05-28

申请号：CN202211449370.4

申请日：2022-11-18

申请人： 科大讯飞股份有限公司

发明人： 胡亚军 , 刘利娟 , 宋锐 , 方昕

IPC分类号： G10L13/08 , G10L25/24 , G10L25/30 , G10L15/06 , G10L15/14

摘要： 本申请公开了一种语音合成方法、装置、存储介质及设备，该方法包括：首先获取待合成的目标文本并确定其目标音素，然后将目标文本和目标音素输入至预先构建的语音合成模型，预测得到语音合成结果，其中，语音合成模型是利用文本、音素和语音数据进行跨模态预训练得到。可见，由于本申请是先基于文本、语音和音素三种模态数据构建了语音合成模型，有效提升了模型的数据利用率和鲁棒性，从而在利用该语音合成模型对目标文本进行语音合成时，可以有效提高合成结果的准确率，进而提高了合成效果。

10.

发明公开
语音合成方法、装置、电子设备和存储介质审中-实审

公开(公告)号：CN115985291A

公开(公告)日：2023-04-18

申请号：CN202211740485.9

申请日：2022-12-30

申请人： 科大讯飞股份有限公司

发明人： 董元杰 , 宋锐 , 胡亚军

IPC分类号： G10L13/08 , G10L13/02 , G10L13/04 , G10L19/16 , G10L25/24

摘要： 本发明提供一种语音合成方法、装置、电子设备和存储介质，其中方法包括：获取待合成的文本；基于所述文本进行声学建模，得到所述文本对应的语音特征，所述语音特征与样本语音特征处于同一特征空间，所述样本语音特征是端到端语音合成模型或自监督语音特征提取模型对样本语音进行特征提取得到的；基于所述语音特征进行波形重构，得到所述文本对应的合成语音。本发明实施例提供的方法，将与基于端到端语音合成模型或自监督语音特征提取模型提取的样本语音特征处于同一特征空间内的语音特征，作为声学模型与声码器之间的桥梁以实现语音合成，从而使得语音合成过程中能够参考到更加丰富的声学信息，由此提高合成语音的语音质量。

搜索结果

国家/区域

专利有效性

申请日

公布(公告)日

申请人

申请人所在国/区域

发明人

IPC

IPC部

IPC大类

IPC小类

IPC大组

IPC小组

外观分类