-
公开(公告)号:CN115497499B
公开(公告)日:2024-09-17
申请号:CN202211060769.3
申请日:2022-08-30
申请人: 阿里巴巴(中国)有限公司
IPC分类号: G10L21/10 , G10L21/057 , G10L21/055
摘要: 本说明书实施例提供的语音和动作时间同步的方法,包括提取当前语音的文本信息,并确定所述当前语音的语音时长;将所述文本信息通过预设算法进行处理,获得初始动作视频;根据所述语音时长以及所述初始动作视频的动作时长,确定所述当前语音与所述初始动作视频的当前同步时间差;在所述当前同步时间差大于等于预设时间阈值的情况下,将预期动作生成时长以及所述文本信息,通过所述预设算法进行处理,确定目标动作视频;该方法采用算法进行长度可控的手语动作视频自动生成,并且在手语动作视频生成的过程中,通过手语动作视频的时长以及当前语音时长,感知语音和手语动作视频之间的同步时间差,实现当前语音和手语动作的同步,提升用户体验。
-
公开(公告)号:CN115206334B
公开(公告)日:2023-02-10
申请号:CN202210770485.7
申请日:2022-06-30
申请人: 哈尔滨工程大学
IPC分类号: G10L21/0224 , G10L21/0232 , G10L21/0264 , G10L21/057 , G10L19/26 , H04B13/02
摘要: 本发明提供一种极地声信号增强和识别方法,包括:对极地声信号中的脉冲干扰噪声进行时频联合提取,得到所有脉冲噪声出现的位置;对步骤1中获得的脉冲噪声位置在信号二维时频图上进行空间平滑滤波以去除脉冲噪声,然后用在时频图上做互相关得到互相关积分曲线,若互相关曲线积分值大于设定的阈值则判断动物/通信信号存在;以对步骤1获得的脉冲噪声位置为中心进行时域窗口的中值滤波,然后对信号提取线谱成分,并通过梳状滤波器进行净化,最后通过比较净化后线谱的方差值,若大于设定的方差阈值则判断船舶信号存在。本发明实现针对在极地中进行长期声呐信号采集获得的海量数据的自动增强和提取,降低对人工干预的依赖,提升效率。
-
公开(公告)号:CN114067818A
公开(公告)日:2022-02-18
申请号:CN202111313917.3
申请日:2021-11-08
申请人: 中国人民解放军火箭军士官学校
IPC分类号: G10L21/02 , G10L21/0232 , G10L21/0264 , G10L21/057 , G10L21/0224
摘要: 本发明提出了一种基于双路径Transformer并结合均衡‑生成成分预测的神经网络(DPT‑EGNet),用于时域的柔性振动传感器语音增强,包括预处理模块、双路径Transformer模块、均衡模块、生成模块、后处理模块。双路径Transformer模块用于学习长时语音序列的局部和全局上下文关系;基于对柔性振动传感器语音损失机理的分析,提出均衡模块和生成模块,将学习到的上下文信息用于均衡系数以及丢失成分的预测。将均衡系数与预处理模块的输出点乘,并加上丢失成分,最终送入到后处理模块实现语音特征到语音波形的重构。实验证明,所提出的网络,相比于其他流行的时频域模型,能够获取更好的增强表现,并且具有非常低的模型复杂度。
-
公开(公告)号:CN107680603A
公开(公告)日:2018-02-09
申请号:CN201610626191.1
申请日:2016-08-02
申请人: 电信科学技术研究院
CPC分类号: G01H7/00 , G10K15/08 , G10L19/00 , G10L19/09 , G10L19/26 , G10L21/02 , G10L21/057 , G10L2019/0011 , H04S7/305
摘要: 本发明公开了一种混响时间估计方法及装置,用以解决现有的基于语音模型的混响时间估计方法中,对混响时间小于预设门限的混响语音的混响时间产生过估计的问题。方法为:在混响环境下获得当前混响语音信号;基于历史混响语音信号和所述当前混响语音信号确定自相关函数;根据所述自相关函数以及预设的极大似然估计模型,确定所述当前混响语音信号的混响时间。
-
公开(公告)号:CN106971715A
公开(公告)日:2017-07-21
申请号:CN201610024744.6
申请日:2016-01-14
申请人: 芋头科技(杭州)有限公司
发明人: 祝铭明
IPC分类号: G10L15/20 , G10L15/26 , G10L21/0208 , G10L21/057
CPC分类号: G10L15/20 , G10L15/26 , G10L21/0208 , G10L21/057
摘要: 本发明提供一种应用于机器人的语音识别装置,装置包括麦克风;第一统计单元,用以根据目标语音信号获取第一语音可信度值;目标背景噪声获取单元,用以根据目标语音信号获取目标背景噪声;噪声判断单元,用以判断目标语音信号中是否存在目标背景噪声;更新单元,用以根据目标语音信号更新噪声分类数据库并停止识别处理;第二统计单元,用以根据可信度调整系数对第一语音可信度值进行,并根据目标背景噪声获取第二语音可信度值;处理单元,用以接收第二语音可信度值,控制机器人根据目标语音信号运行相应的功能。本发明根据目标背景噪声,灵活调整可信度值的方法,大大提升了噪声背景下的语音识别率。
-
公开(公告)号:CN104575516A
公开(公告)日:2015-04-29
申请号:CN201410616526.2
申请日:2014-09-30
申请人: 霍尼韦尔国际公司
IPC分类号: G10L21/0364 , G10L21/057 , G10L15/06 , G10L15/18 , G10L15/26
摘要: 一种在飞机上的用于识别话音的系统和方法,所述系统和方法补偿由至少第一和第二独特地理地区组成的区域上的不同地区方言,包括:使用代表第一独特地理地区中话音的话音数据特性来分析第一独特地理地区中的话音;检测从第一独特地理地区到第二地理地区的位置变化;以及在检测到飞机已经从第一独特地理地区转移到第二独特地理地区时,使用代表第二独特地理地区中话音的话音数据特性来分析第二独特地理地区中的话音。
-
公开(公告)号:CN103038825A
公开(公告)日:2013-04-10
申请号:CN201180001446.0
申请日:2011-08-05
IPC分类号: G10L21/057
CPC分类号: G10L21/0364 , G10L25/12 , G10L25/15
摘要: 本发明实施例涉及语音增强的方法和设备。语音增强方法包括:获取浊音帧信号的M个第一线性预测系数,其中M是线性预测滤波器的阶数;获取提升因子,其中,提升因子根据M个第一线性预测系数对应的短时谱包络中频率之间的相关性得到;根据提升因子以及M个第一线性预测系数之间的相关性修改M个第一线性预测系数,使得修改后得到的M个第二线性预测系数所对应的第二短时谱包络与M个第一线性预测系数所对应的第一短时谱包络相比,共振峰能量得到增强并且中高频频谱分量得到一定程度的补偿。由共振峰能量对语音音质的决定作用及语音中高频频谱成份对语音可懂度的贡献性,经过本发明实施例的方法处理后,语音的质量和可懂度都得到了共同的提升。
-
公开(公告)号:CN115497499A
公开(公告)日:2022-12-20
申请号:CN202211060769.3
申请日:2022-08-30
申请人: 阿里巴巴(中国)有限公司
IPC分类号: G10L21/10 , G10L21/057 , G10L21/055
摘要: 本说明书实施例提供的语音和动作时间同步的方法,包括提取当前语音的文本信息,并确定所述当前语音的语音时长;将所述文本信息通过预设算法进行处理,获得初始动作视频;根据所述语音时长以及所述初始动作视频的动作时长,确定所述当前语音与所述初始动作视频的当前同步时间差;在所述当前同步时间差大于等于预设时间阈值的情况下,将预期动作生成时长以及所述文本信息,通过所述预设算法进行处理,确定目标动作视频;该方法采用算法进行长度可控的手语动作视频自动生成,并且在手语动作视频生成的过程中,通过手语动作视频的时长以及当前语音时长,感知语音和手语动作视频之间的同步时间差,实现当前语音和手语动作的同步,提升用户体验。
-
公开(公告)号:CN115497493A
公开(公告)日:2022-12-20
申请号:CN202211050017.9
申请日:2022-08-30
申请人: 陕西烽火电子股份有限公司
IPC分类号: G10L21/0208 , G10L21/057 , H04M9/08
摘要: 本发明公开了一种适用于直升机的话音自适应降噪电路,包括二阶切比雪夫滤波器、整流电路、电压比较器电子开关、加法器电路。适用于直升机的话音自适应降噪电路,该适用于直升机的话音自适应降噪电路是独创性产品,有效解决了降低直升机话音定频噪声问题,提高了国内机内通话器技术水平。
-
公开(公告)号:CN109862302B
公开(公告)日:2022-05-31
申请号:CN201811101576.1
申请日:2018-09-20
申请人: 奥多比公司
IPC分类号: H04N7/15 , G10L25/48 , G10L21/057 , G10L21/04 , G10L13/08
摘要: 本申请的各实施例涉及针对在线会议中的客户端设备的可访问音频切换。描述了用于在线会议期间的可访问音频切换选项的技术和系统。例如,会议系统从客户端设备接收呈现内容和音频内容作为在线会议的一部分。会议系统通过将呈现内容的文本转换为音频来从呈现内容生成画外音内容。会议系统然后将呈现内容划分为呈现分段。会议系统还将音频内容划分为与相应的呈现分段对应的音频分段,并且将画外音内容划分为与相应的呈现分段对应的画外音分段。当在线会议被输出时,会议系统在相应的呈现分段的输出期间启用应的音频分段与画外音分段之间的切换。
-
-
-
-
-
-
-
-
-