一种语音内容识别方法及系统
    4.
    发明公开

    公开(公告)号:CN118865951A

    公开(公告)日:2024-10-29

    申请号:CN202411195416.3

    申请日:2024-08-29

    摘要: 本发明公开了一种语音内容识别方法及系统,涉及语音识别技术领域,本发明包括以下步骤:用户确认:在用户首次使用系统时,要求用户朗读一组预定义的句子或数字序列,以收集用户的语音样本,从这些样本中提取语音特征;本发明,通过集成先进的语音信号处理技术和活体检测机制,显著提高了语音识别的准确性和安全性,用户确认模块采用声音模板匹配和活体检测技术,如唇动检测和语音节奏分析,有效区分了真实用户和潜在的欺诈者,确保了只有用户实时的语音才能被系统接受,通过定期更新声音模板以适应用户声音的变化,增强了系统的适应性和长期稳定性。

    语音转换方法、装置、电子设备及存储介质

    公开(公告)号:CN118824262A

    公开(公告)日:2024-10-22

    申请号:CN202311404104.4

    申请日:2023-10-26

    摘要: 本申请公开了一种语音转换方法、装置、电子设备及存储介质,其中,语音转换方法包括:调用语音预训练模型对源说话人的第一语音进行处理,得到第一语音的预训练特征,预训练特征表征语音内容;调用先验编码器对第一语音的预训练特征进行处理,得到第一序列,第一序列表征第一语音的预训练特征的第一潜在分布;调用声纹识别模型对目标说话人的第二语音进行处理,得到第一向量,第一向量表征目标说话人的音色特征;之后,调用流模型对第一序列进行处理,得到第二序列,流模型以第一向量作为条件,第二序列表征第一语音的预训练特征的第二潜在分布;最后,调用解码器对第二序列和第一向量进行处理,以实现源说话人和目标说话人之间的音色转换。

    一种复杂环境下声纹降噪识别方法及系统

    公开(公告)号:CN118824257A

    公开(公告)日:2024-10-22

    申请号:CN202410786276.0

    申请日:2024-06-18

    发明人: 刘亨宇

    摘要: 本发明公开了一种复杂环境下声纹降噪识别方法及系统,涉及声纹降噪识别技术领域,包括采集复杂环境下声音并进行预处理;对环境声音进行实时监测和分析;采用判决反馈机制对环境声音进行降噪处理;重新采集人声信号并进行声纹特征提取;基于提取声纹特征对降噪处理后的环境声音进行声纹识别;对数据进行存储,本发明通过对采集的声音信号进行实时监测与分析,判决反馈机制对环境声音进行降噪处理,预加重和汉明窗处理后的人声信号,从而有效提高声纹识别的准确性,精确地抑制噪声,以及确保声纹特征的完整性和信号的质量。

    语音指令的响应方法及装置、存储介质及电子装置

    公开(公告)号:CN114708872B

    公开(公告)日:2024-10-22

    申请号:CN202210284357.1

    申请日:2022-03-22

    发明人: 骆小菊

    摘要: 本发明公开了一种语音指令的响应方法及装置、存储介质及电子装置,其中,上述方法包括:获取目标对象的语音指令,并根据语音指令确定目标对象的目标声纹信息;将目标声纹信息输入目标神经网络模型,得到目标对象的预估年龄,其中,目标神经网络模型用于根据输入的声纹信息确定对应的预估年龄;在目标对象的预估年龄位于预设的目标年龄区间的情况下,确定与目标年龄区间具有预设的对应关系的播放设置,所述播放设置包括目标播放音量;将所述播放设置发送至目标设备,控制目标设备按照所述播放设置对所述目标对象的语音指令进行响应。采用上述技术方案,解决无法为不同年龄的用户设置不同的播放音量的问题。

    包括老年人、痴呆症患者的老弱者护理服务系统

    公开(公告)号:CN118805226A

    公开(公告)日:2024-10-18

    申请号:CN202380024225.8

    申请日:2023-08-11

    发明人: 崔钟文

    摘要: 本发明涉及一种包括老年人和痴呆症患者的老弱者护理服务系统,其中包括:服务提供装置,根据来自监护人终端的管理类型存储预设的语音或文本,并根据设定的时间或周期,将监护人终端的电话号码改为发信人号码,预约发送给受保护人终端或实时呼叫,并将受保护人终端的回复发送给监护人终端或实时呼叫,提供监护人对受保护人的远程管理服务;监护人终端,利用服务提供装置提供的服务应用程序,选择管理类型,根据管理类型预先设置并存储语音或文本,然后,预约设定发送时间或周期,使得由服务提供装置完成预约传送;以及受保护人终端,在没有安装其他的服务应用程序的情况下,接收从服务提供装置中继传送的根据管理类型的语音或文本后并回复。

    一种语音增强的方法及装置
    10.
    发明公开

    公开(公告)号:CN118762706A

    公开(公告)日:2024-10-11

    申请号:CN202410933866.1

    申请日:2024-07-12

    摘要: 本发明涉及语音处理技术,其公开了一种语音增强的方法及装置,提升语音增强的效果,并减小模型的计算量。本发明中提供的语音增强模型主要包括深度复频编码器、信息提示编码器、深度复频解码器;其中,深度复频编码器是以输入的语音数据的复频谱特征作为输入,输出复频编码结果;信息提示编码器是以输入的语音数据的复频谱特征中的实频部分作为输入,输出信息提示预测结果;深度复频解码器是以输入的语音数据的深度复频编码结果和信息提示预测结果作为输入,输出复频掩模预测结果;最后通过将复频掩模预测结果与输入的语音数据的复频谱特征进行内积运算,获得增强复频谱,对增强复频谱进行反变换获得增强语音。本发明适用于对语音的增强处理。