语音和动作时间同步的方法

    公开(公告)号:CN115497499B

    公开(公告)日:2024-09-17

    申请号:CN202211060769.3

    申请日:2022-08-30

    摘要: 本说明书实施例提供的语音和动作时间同步的方法,包括提取当前语音的文本信息,并确定所述当前语音的语音时长;将所述文本信息通过预设算法进行处理,获得初始动作视频;根据所述语音时长以及所述初始动作视频的动作时长,确定所述当前语音与所述初始动作视频的当前同步时间差;在所述当前同步时间差大于等于预设时间阈值的情况下,将预期动作生成时长以及所述文本信息,通过所述预设算法进行处理,确定目标动作视频;该方法采用算法进行长度可控的手语动作视频自动生成,并且在手语动作视频生成的过程中,通过手语动作视频的时长以及当前语音时长,感知语音和手语动作视频之间的同步时间差,实现当前语音和手语动作的同步,提升用户体验。

    一种极地声信号增强和识别方法

    公开(公告)号:CN115206334B

    公开(公告)日:2023-02-10

    申请号:CN202210770485.7

    申请日:2022-06-30

    摘要: 本发明提供一种极地声信号增强和识别方法,包括:对极地声信号中的脉冲干扰噪声进行时频联合提取,得到所有脉冲噪声出现的位置;对步骤1中获得的脉冲噪声位置在信号二维时频图上进行空间平滑滤波以去除脉冲噪声,然后用在时频图上做互相关得到互相关积分曲线,若互相关曲线积分值大于设定的阈值则判断动物/通信信号存在;以对步骤1获得的脉冲噪声位置为中心进行时域窗口的中值滤波,然后对信号提取线谱成分,并通过梳状滤波器进行净化,最后通过比较净化后线谱的方差值,若大于设定的方差阈值则判断船舶信号存在。本发明实现针对在极地中进行长期声呐信号采集获得的海量数据的自动增强和提取,降低对人工干预的依赖,提升效率。

    一种时域柔性振动传感器语音增强方法及系统

    公开(公告)号:CN114067818A

    公开(公告)日:2022-02-18

    申请号:CN202111313917.3

    申请日:2021-11-08

    摘要: 本发明提出了一种基于双路径Transformer并结合均衡‑生成成分预测的神经网络(DPT‑EGNet),用于时域的柔性振动传感器语音增强,包括预处理模块、双路径Transformer模块、均衡模块、生成模块、后处理模块。双路径Transformer模块用于学习长时语音序列的局部和全局上下文关系;基于对柔性振动传感器语音损失机理的分析,提出均衡模块和生成模块,将学习到的上下文信息用于均衡系数以及丢失成分的预测。将均衡系数与预处理模块的输出点乘,并加上丢失成分,最终送入到后处理模块实现语音特征到语音波形的重构。实验证明,所提出的网络,相比于其他流行的时频域模型,能够获取更好的增强表现,并且具有非常低的模型复杂度。

    一种应用于机器人的语音识别装置

    公开(公告)号:CN106971715A

    公开(公告)日:2017-07-21

    申请号:CN201610024744.6

    申请日:2016-01-14

    发明人: 祝铭明

    摘要: 本发明提供一种应用于机器人的语音识别装置,装置包括麦克风;第一统计单元,用以根据目标语音信号获取第一语音可信度值;目标背景噪声获取单元,用以根据目标语音信号获取目标背景噪声;噪声判断单元,用以判断目标语音信号中是否存在目标背景噪声;更新单元,用以根据目标语音信号更新噪声分类数据库并停止识别处理;第二统计单元,用以根据可信度调整系数对第一语音可信度值进行,并根据目标背景噪声获取第二语音可信度值;处理单元,用以接收第二语音可信度值,控制机器人根据目标语音信号运行相应的功能。本发明根据目标背景噪声,灵活调整可信度值的方法,大大提升了噪声背景下的语音识别率。

    语音增强方法和设备
    7.
    发明公开

    公开(公告)号:CN103038825A

    公开(公告)日:2013-04-10

    申请号:CN201180001446.0

    申请日:2011-08-05

    IPC分类号: G10L21/057

    摘要: 本发明实施例涉及语音增强的方法和设备。语音增强方法包括:获取浊音帧信号的M个第一线性预测系数,其中M是线性预测滤波器的阶数;获取提升因子,其中,提升因子根据M个第一线性预测系数对应的短时谱包络中频率之间的相关性得到;根据提升因子以及M个第一线性预测系数之间的相关性修改M个第一线性预测系数,使得修改后得到的M个第二线性预测系数所对应的第二短时谱包络与M个第一线性预测系数所对应的第一短时谱包络相比,共振峰能量得到增强并且中高频频谱分量得到一定程度的补偿。由共振峰能量对语音音质的决定作用及语音中高频频谱成份对语音可懂度的贡献性,经过本发明实施例的方法处理后,语音的质量和可懂度都得到了共同的提升。

    语音和动作时间同步的方法

    公开(公告)号:CN115497499A

    公开(公告)日:2022-12-20

    申请号:CN202211060769.3

    申请日:2022-08-30

    摘要: 本说明书实施例提供的语音和动作时间同步的方法,包括提取当前语音的文本信息,并确定所述当前语音的语音时长;将所述文本信息通过预设算法进行处理,获得初始动作视频;根据所述语音时长以及所述初始动作视频的动作时长,确定所述当前语音与所述初始动作视频的当前同步时间差;在所述当前同步时间差大于等于预设时间阈值的情况下,将预期动作生成时长以及所述文本信息,通过所述预设算法进行处理,确定目标动作视频;该方法采用算法进行长度可控的手语动作视频自动生成,并且在手语动作视频生成的过程中,通过手语动作视频的时长以及当前语音时长,感知语音和手语动作视频之间的同步时间差,实现当前语音和手语动作的同步,提升用户体验。

    在线会议中客户端设备的可访问音频切换的方法、系统

    公开(公告)号:CN109862302B

    公开(公告)日:2022-05-31

    申请号:CN201811101576.1

    申请日:2018-09-20

    申请人: 奥多比公司

    摘要: 本申请的各实施例涉及针对在线会议中的客户端设备的可访问音频切换。描述了用于在线会议期间的可访问音频切换选项的技术和系统。例如,会议系统从客户端设备接收呈现内容和音频内容作为在线会议的一部分。会议系统通过将呈现内容的文本转换为音频来从呈现内容生成画外音内容。会议系统然后将呈现内容划分为呈现分段。会议系统还将音频内容划分为与相应的呈现分段对应的音频分段,并且将画外音内容划分为与相应的呈现分段对应的画外音分段。当在线会议被输出时,会议系统在相应的呈现分段的输出期间启用应的音频分段与画外音分段之间的切换。