一种语音识别方法及装置和智能音箱

    公开(公告)号:CN111785282B

    公开(公告)日:2024-11-05

    申请号:CN201910265991.9

    申请日:2019-04-03

    发明人: 郑斯奇

    摘要: 本申请公开了一种语音识别方法及装置和智能音箱,本申请使用根据近场语音和远场语音训练好的降噪自动编码器,将需要识别的语音信息的声纹特征向量,特别是远场的声纹特征向量,投影到了与近场声纹特征尽可能相似的空间,再利用降噪自动编码器输出的声纹特征向量实现后续对语音用户身份的识别,降低了由于说话人与设备之间的距离而带来的不能准确识别出远离设备的说话人身份的问题,提升了远场声纹识别的鲁棒性。

    车辆语音交互唤醒方法、装置、设备及存储介质

    公开(公告)号:CN118865973A

    公开(公告)日:2024-10-29

    申请号:CN202411071640.1

    申请日:2024-08-06

    发明人: 程谦

    摘要: 本发明公开了一种车辆语音交互唤醒方法、装置、设备及存储介质,属于语音交互技术领域。本方法先通过车内和车外两组麦克风阵列采集声音信号,当检测到环境音超过预设唤醒阈值时,提取并分析语音信息的声纹特征,与预设唤醒人声纹进行匹配,匹配成功则提取出人说话的语音信,接着,利用两组麦克风阵列在不同空间位置中的采集单元采集语音信息,并分析出声学特征声源的精确位置。如果确认声源在车内,则执行语音信息内相应的控制指令;若判断声源不在车内则终止语音交互。此方法有效提升了车辆语音交互系统的准确性和响应速度,同时确保了车辆语音交互控制的安全性。

    学生室内语言行为监管系统
    5.
    发明公开

    公开(公告)号:CN118762719A

    公开(公告)日:2024-10-11

    申请号:CN202410796513.1

    申请日:2024-06-19

    发明人: 肖长伟

    摘要: 本发明公开了学生室内语言行为监管系统,本发明涉及学生监管技术领域。人员监测单元:行为目标生成基础信息,在环境区域内,监管目标获取所述基础信息,并根据所述基础信息对行为目标进行监控,该学生室内语言行为监管系统,通过对宿舍学生人数的设定,配合毫米波雷达的高分辨率使其能够检测到较小的物体,能够准确快速的实现人员活动的探测,实时对学生人数进行监管,配合人员监测的变化机制,对监管过程中的外界干扰因素进行剔除,提升监管系统的准确性,再利用噪音识别进行分级管理,在避免噪音影响宿舍的同时,还能避免过于灵敏的识别过程,监管系统起到一个稳定有效的预警效果。

    一种语音处理方法及电子设备
    6.
    发明公开

    公开(公告)号:CN118737140A

    公开(公告)日:2024-10-01

    申请号:CN202410734441.8

    申请日:2024-06-06

    发明人: 马明

    摘要: 本申请实施例公开一种语音处理方法及电子设备,该方法包括:对声音采集器采集的语音信号进行唤醒词识别;在从所述语音信号中识别到唤醒词时,对发出所述唤醒词的目标人声进行增强;对增强后的所述目标人声进行声纹识别,确定目标发声对象;从所述语音信号中提取目标发声对象的语音指令,响应所述语音指令。这样,电子设备通过对唤醒词进行识别和增强,锁定目标发声对象,建立唤醒词和语音指令的发声对象的强关联性,从而精准识别和响应语音指令,提升人机交互系统的性能。

    一种基于语音调节的调焦方法及系统

    公开(公告)号:CN118711588A

    公开(公告)日:2024-09-27

    申请号:CN202411027620.4

    申请日:2024-07-30

    发明人: 宋宗明 窦键昇

    摘要: 本发明涉及语音控制技术领域,涉及一种基于语音调节的调焦方法,所述方法包括获取语音信号,语音信号包括眼科手术室中采集的语音信号;基于语音信号识别目标用户的身份,得到识别结果;根据识别结果得到目标用户对应的权限信息,并基于语音信号和权限信息判断目标用户是否具有对调焦装置发出控制指令的权限,得到判断结果;根据判断结果对语音信号进行预处理,得到预处理后的语音信号;根据预处理后的语音信号对调焦装置进行调焦,本发明基于用户的语音信息判断用户的权限,当控制指令满足用户权限时,再对语音信号进行进一步的预处理,从而实现调焦镜的快速调焦,提高调焦的效率和精度。

    一种音频识别方法、装置、电子设备及存储介质

    公开(公告)号:CN114550731B

    公开(公告)日:2024-09-17

    申请号:CN202210343564.X

    申请日:2022-03-31

    摘要: 本公开提供了一种音频识别方法、装置、电子设备、可读存储介质以及计算机程序产品,涉及人工智能、安全认证技术以及声纹识别技术领域。具体实现方案为:基于待识别音频在频域对应的第一音频特征,确定所述待识别音频在实数域对应的第二音频特征;利用目标压缩函数对所述第二音频特征进行特征压缩,获得所述待识别音频对应的非线性音频特征,所述目标压缩函数为预先对可平滑对数压缩函数进行参数学习得到的,所述可平滑对数压缩函数中包括预设的可学习参数;基于所述非线性音频特征,确定所述待识别音频对应的音频识别结果。该方案能够在无需人工提取音频特征的情况下,高效的模拟出待识别音频的非线性,进而能够提高音频识别的安全性和识别效率。