专利检索 ipc:G10L21/057 第 1 页

1.

发明授权
语音和动作时间同步的方法有权

公开(公告)号：CN115497499B

公开(公告)日：2024-09-17

申请号：CN202211060769.3

申请日：2022-08-30

申请人： 阿里巴巴(中国)有限公司

发明人： 祖新星 , 张家硕 , 赵中州 , 韩玉洁 , 林淼 , 王琪 , 吴淑明

IPC分类号： G10L21/10 , G10L21/057 , G10L21/055

摘要： 本说明书实施例提供的语音和动作时间同步的方法，包括提取当前语音的文本信息，并确定所述当前语音的语音时长；将所述文本信息通过预设算法进行处理，获得初始动作视频；根据所述语音时长以及所述初始动作视频的动作时长，确定所述当前语音与所述初始动作视频的当前同步时间差；在所述当前同步时间差大于等于预设时间阈值的情况下，将预期动作生成时长以及所述文本信息，通过所述预设算法进行处理，确定目标动作视频；该方法采用算法进行长度可控的手语动作视频自动生成，并且在手语动作视频生成的过程中，通过手语动作视频的时长以及当前语音时长，感知语音和手语动作视频之间的同步时间差，实现当前语音和手语动作的同步，提升用户体验。

2.

发明授权
一种极地声信号增强和识别方法有权

公开(公告)号：CN115206334B

公开(公告)日：2023-02-10

申请号：CN202210770485.7

申请日：2022-06-30

申请人： 哈尔滨工程大学

发明人： 李理 , 张宇翔 , 李向欣 , 苗洪波 , 殷敬伟

IPC分类号： G10L21/0224 , G10L21/0232 , G10L21/0264 , G10L21/057 , G10L19/26 , H04B13/02

摘要： 本发明提供一种极地声信号增强和识别方法，包括：对极地声信号中的脉冲干扰噪声进行时频联合提取，得到所有脉冲噪声出现的位置；对步骤1中获得的脉冲噪声位置在信号二维时频图上进行空间平滑滤波以去除脉冲噪声，然后用在时频图上做互相关得到互相关积分曲线，若互相关曲线积分值大于设定的阈值则判断动物/通信信号存在；以对步骤1获得的脉冲噪声位置为中心进行时域窗口的中值滤波，然后对信号提取线谱成分，并通过梳状滤波器进行净化，最后通过比较净化后线谱的方差值，若大于设定的方差阈值则判断船舶信号存在。本发明实现针对在极地中进行长期声呐信号采集获得的海量数据的自动增强和提取，降低对人工干预的依赖，提升效率。

3.

发明公开
一种时域柔性振动传感器语音增强方法及系统有权

公开(公告)号：CN114067818A

公开(公告)日：2022-02-18

申请号：CN202111313917.3

申请日：2021-11-08

申请人： 中国人民解放军火箭军士官学校

发明人： 郑昌艳 , 杨吉斌 , 徐利国 , 崔洪亮 , 刘宁 , 葛含 , 黄显

IPC分类号： G10L21/02 , G10L21/0232 , G10L21/0264 , G10L21/057 , G10L21/0224

摘要： 本发明提出了一种基于双路径Transformer并结合均衡‑生成成分预测的神经网络(DPT‑EGNet)，用于时域的柔性振动传感器语音增强，包括预处理模块、双路径Transformer模块、均衡模块、生成模块、后处理模块。双路径Transformer模块用于学习长时语音序列的局部和全局上下文关系；基于对柔性振动传感器语音损失机理的分析，提出均衡模块和生成模块，将学习到的上下文信息用于均衡系数以及丢失成分的预测。将均衡系数与预处理模块的输出点乘，并加上丢失成分，最终送入到后处理模块实现语音特征到语音波形的重构。实验证明，所提出的网络，相比于其他流行的时频域模型，能够获取更好的增强表现，并且具有非常低的模型复杂度。

4.

发明公开
一种混响时间估计方法及装置有权

公开(公告)号：CN107680603A

公开(公告)日：2018-02-09

申请号：CN201610626191.1

申请日：2016-08-02

申请人： 电信科学技术研究院

发明人： 邹莹 , 梁民 , 沙永涛

IPC分类号： G10L19/00 , G10L19/09 , G10L19/26 , G10L21/02 , G10L21/057 , G10K15/08 , H04S7/00

CPC分类号： G01H7/00 , G10K15/08 , G10L19/00 , G10L19/09 , G10L19/26 , G10L21/02 , G10L21/057 , G10L2019/0011 , H04S7/305

摘要： 本发明公开了一种混响时间估计方法及装置，用以解决现有的基于语音模型的混响时间估计方法中，对混响时间小于预设门限的混响语音的混响时间产生过估计的问题。方法为：在混响环境下获得当前混响语音信号；基于历史混响语音信号和所述当前混响语音信号确定自相关函数；根据所述自相关函数以及预设的极大似然估计模型，确定所述当前混响语音信号的混响时间。

5.

发明公开
一种应用于机器人的语音识别装置无效

公开(公告)号：CN106971715A

公开(公告)日：2017-07-21

申请号：CN201610024744.6

申请日：2016-01-14

申请人： 芋头科技(杭州)有限公司

发明人： 祝铭明

IPC分类号： G10L15/20 , G10L15/26 , G10L21/0208 , G10L21/057

CPC分类号： G10L15/20 , G10L15/26 , G10L21/0208 , G10L21/057

摘要： 本发明提供一种应用于机器人的语音识别装置，装置包括麦克风；第一统计单元，用以根据目标语音信号获取第一语音可信度值；目标背景噪声获取单元，用以根据目标语音信号获取目标背景噪声；噪声判断单元，用以判断目标语音信号中是否存在目标背景噪声；更新单元，用以根据目标语音信号更新噪声分类数据库并停止识别处理；第二统计单元，用以根据可信度调整系数对第一语音可信度值进行，并根据目标背景噪声获取第二语音可信度值；处理单元，用以接收第二语音可信度值，控制机器人根据目标语音信号运行相应的功能。本发明根据目标背景噪声，灵活调整可信度值的方法，大大提升了噪声背景下的语音识别率。

6.

发明公开
用于在使用动态话音数据库的飞机驾驶舱中校正口音诱导话音的系统和方法有权

公开(公告)号：CN104575516A

公开(公告)日：2015-04-29

申请号：CN201410616526.2

申请日：2014-09-30

申请人： 霍尼韦尔国际公司

发明人： S·卡 , K·G·克里什纳 , J·K·阿加瓦尔 , R·E·德默斯

IPC分类号： G10L21/0364 , G10L21/057 , G10L15/06 , G10L15/18 , G10L15/26

摘要： 一种在飞机上的用于识别话音的系统和方法，所述系统和方法补偿由至少第一和第二独特地理地区组成的区域上的不同地区方言，包括：使用代表第一独特地理地区中话音的话音数据特性来分析第一独特地理地区中的话音；检测从第一独特地理地区到第二地理地区的位置变化；以及在检测到飞机已经从第一独特地理地区转移到第二独特地理地区时，使用代表第二独特地理地区中话音的话音数据特性来分析第二独特地理地区中的话音。

7.

发明公开
语音增强方法和设备失效

公开(公告)号：CN103038825A

公开(公告)日：2013-04-10

申请号：CN201180001446.0

申请日：2011-08-05

申请人： 华为技术有限公司 , 电子科技大学

发明人： 田薇 , 李玉龙 , 邝秀玉 , 贺知明

IPC分类号： G10L21/057

CPC分类号： G10L21/0364 , G10L25/12 , G10L25/15

摘要： 本发明实施例涉及语音增强的方法和设备。语音增强方法包括：获取浊音帧信号的M个第一线性预测系数，其中M是线性预测滤波器的阶数；获取提升因子，其中，提升因子根据M个第一线性预测系数对应的短时谱包络中频率之间的相关性得到；根据提升因子以及M个第一线性预测系数之间的相关性修改M个第一线性预测系数，使得修改后得到的M个第二线性预测系数所对应的第二短时谱包络与M个第一线性预测系数所对应的第一短时谱包络相比，共振峰能量得到增强并且中高频频谱分量得到一定程度的补偿。由共振峰能量对语音音质的决定作用及语音中高频频谱成份对语音可懂度的贡献性，经过本发明实施例的方法处理后，语音的质量和可懂度都得到了共同的提升。

8.

发明公开
语音和动作时间同步的方法有权

公开(公告)号：CN115497499A

公开(公告)日：2022-12-20

申请号：CN202211060769.3

申请日：2022-08-30

申请人： 阿里巴巴(中国)有限公司

发明人： 祖新星 , 张家硕 , 赵中州 , 韩玉洁 , 林淼 , 王琪 , 吴淑明

IPC分类号： G10L21/10 , G10L21/057 , G10L21/055

摘要： 本说明书实施例提供的语音和动作时间同步的方法，包括提取当前语音的文本信息，并确定所述当前语音的语音时长；将所述文本信息通过预设算法进行处理，获得初始动作视频；根据所述语音时长以及所述初始动作视频的动作时长，确定所述当前语音与所述初始动作视频的当前同步时间差；在所述当前同步时间差大于等于预设时间阈值的情况下，将预期动作生成时长以及所述文本信息，通过所述预设算法进行处理，确定目标动作视频；该方法采用算法进行长度可控的手语动作视频自动生成，并且在手语动作视频生成的过程中，通过手语动作视频的时长以及当前语音时长，感知语音和手语动作视频之间的同步时间差，实现当前语音和手语动作的同步，提升用户体验。

9.

发明公开
一种适用于直升机的话音自适应降噪电路审中-实审

公开(公告)号：CN115497493A

公开(公告)日：2022-12-20

申请号：CN202211050017.9

申请日：2022-08-30

申请人： 陕西烽火电子股份有限公司

发明人： 肖剑 , 蒲勇 , 李欣 , 李阳 , 严斐

IPC分类号： G10L21/0208 , G10L21/057 , H04M9/08

摘要： 本发明公开了一种适用于直升机的话音自适应降噪电路，包括二阶切比雪夫滤波器、整流电路、电压比较器电子开关、加法器电路。适用于直升机的话音自适应降噪电路，该适用于直升机的话音自适应降噪电路是独创性产品，有效解决了降低直升机话音定频噪声问题，提高了国内机内通话器技术水平。

10.

发明授权
在线会议中客户端设备的可访问音频切换的方法、系统有权

公开(公告)号：CN109862302B

公开(公告)日：2022-05-31

申请号：CN201811101576.1

申请日：2018-09-20

申请人： 奥多比公司

发明人： A·简恩 , S·索尼 , A·斯里瓦斯塔瓦

IPC分类号： H04N7/15 , G10L25/48 , G10L21/057 , G10L21/04 , G10L13/08

摘要： 本申请的各实施例涉及针对在线会议中的客户端设备的可访问音频切换。描述了用于在线会议期间的可访问音频切换选项的技术和系统。例如，会议系统从客户端设备接收呈现内容和音频内容作为在线会议的一部分。会议系统通过将呈现内容的文本转换为音频来从呈现内容生成画外音内容。会议系统然后将呈现内容划分为呈现分段。会议系统还将音频内容划分为与相应的呈现分段对应的音频分段，并且将画外音内容划分为与相应的呈现分段对应的画外音分段。当在线会议被输出时，会议系统在相应的呈现分段的输出期间启用应的音频分段与画外音分段之间的切换。

搜索结果

国家/区域

专利有效性

申请日

公布(公告)日

申请人

申请人所在国/区域

发明人

IPC

IPC部

IPC大类

IPC小类

IPC大组

IPC小组

外观分类