语音唤醒方法、电子设备、存储介质和计算机程序产品

    公开(公告)号:CN118865968A

    公开(公告)日:2024-10-29

    申请号:CN202410895704.3

    申请日:2024-07-04

    发明人: 李林峰 黄海荣

    IPC分类号: G10L15/22

    摘要: 一种语音唤醒方法、电子设备、存储介质和计算机程序产品。该语音唤醒方法包括:对第一音频数据进行语音唤醒识别,得到唤醒概率值;响应于唤醒概率值大于或等于第二阈值,唤醒电子设备;响应于唤醒概率值小于或等于第一阈值,不唤醒电子设备;响应于唤醒概率值大于第一阈值且小于第二阈值,输出唤醒确认请求;根据对于唤醒确认请求的确认应答的接收结果,确定是否唤醒电子设备,并根据确认应答的接收结果调整第一阈值和/或第二阈值。该语音唤醒方法可以提升电子设备语音唤醒功能的用户体验。

    头戴设备语音处理方法和头戴设备

    公开(公告)号:CN117636836A

    公开(公告)日:2024-03-01

    申请号:CN202311587705.3

    申请日:2023-11-23

    发明人: 李林峰 黄海荣

    摘要: 公开了一种头戴设备语音处理方法和头戴设备。该语音处理方法包括:获取麦克风采集的原始时域信号;对原始时域信号进行基于方向的增强抑制处理,以获取经处理时域信号,其中,根据头戴设备的当前使用场景选择增强抑制处理中需要增强和/或抑制的方向;根据原始时域信号与经处理时域信号的能量判定是否进行基于原始时域信号的语音处理。本公开基于经处理信号相比于原始信号的能量衰减程度来判定采集信号是否包含目标说话人的语音信息,尤其能够准确分辨非目标说话人大声说话的情况,避免头戴设备的误操作。

    音频识别方法、装置、电子设备和存储介质

    公开(公告)号:CN117476008A

    公开(公告)日:2024-01-30

    申请号:CN202311607460.6

    申请日:2023-11-27

    摘要: 本申请提供了应用于智能可穿戴设备的音频识别方法、装置、电子设备、存储介质和计算机程序产品,依据本申请实施例,先执行语音端点检测,获取包括完整语句的待识别的音频数据,再使用语音模型识别待识别的音频数据对应的文本内容,最后使用命令词库匹配文本内容,确定对应的目标命令词,在匹配到命令词库中多个命令词的情况下,目标命令词为匹配到的多个命令词中最长的命令词。上述音频识别的方法实现了对包括完整语句的音频数据的一次识别、精准匹配,提高了音频识别结果的准确性,节省了算力。

    处理音频数据的方法及装置、音频数据处理设备和介质

    公开(公告)号:CN116959421B

    公开(公告)日:2023-12-19

    申请号:CN202311218395.8

    申请日:2023-09-21

    摘要: 本公开的至少一实施例提供了一种处理音频数据的方法和装置、音频数据处理设备和计算机可读存储介质。本公开的至少一实施例所提供的方法针对由语音交互设备获取的音频数据,分别从中提取语音特征和语音文本,继而基于语音特征和语音文本确定对音频数据的拒识概率,并且基于语音特征对该音频数据所属的场景进行分类,以联合所确定的拒识概率和场景分类结果共同确定语音交互设备对该音频数据的最终拒识结果。该方法能够利用包括声音和文本的多模态信息进行拒识概率确定,并且利用从音频数据(56)对比文件徐明星,郑方,吴文虎,方棣棠.连续语音关键词识别系统的拒识方法研究.清华大学学报(自然科学版).1998,(第S1期),全文.

    数据处理方法、电子设备、存储介质及计算机程序产品

    公开(公告)号:CN118942491A

    公开(公告)日:2024-11-12

    申请号:CN202410930876.X

    申请日:2024-07-11

    摘要: 本申请提供了一种数据处理方法、电子设备、存储介质及计算机程序产品,其中,可穿戴设备包括麦克风阵列,麦克风阵列包括第一麦克风和第二麦克风第一麦克风的目标声源为佩戴者,第二麦克风的目标声源为非佩戴者;其中,数据处理方法包括:对第一麦克风采集的第一音频进行第一静音检测,得到第一静音检测结果;响应于第一静音检测结果为存在语音片段,对第二麦克风采集的第二音频进行第二静音检测,得到第二静音检测结果;根据第一静音检测结果和第二静音检测结果,确定第一音频和第二音频的声源;响应于声源包括当前应用场景下的目标声源,对所述当前应用场景下的目标声源对应的麦克风所采集的音频进行语音识别。

    电子设备的唤醒方法、设备、存储介质及计算机程序产品

    公开(公告)号:CN118538217A

    公开(公告)日:2024-08-23

    申请号:CN202410772842.2

    申请日:2024-06-14

    发明人: 李林峰

    IPC分类号: G10L15/22 G10L15/10 G10L15/08

    摘要: 本申请提供了一种电子设备的唤醒方法、设备、存储介质及计算机程序产品,其中,唤醒方法包括:在电子设备处于休眠状态下,获取待识别音频流;对待识别音频流中的第一音频段进行语音唤醒识别,得到第一音频段集合的唤醒值;响应于第一音频段集合的唤醒值大于或等于第一唤醒门限值且小于第二唤醒门限值,至少提升电子设备的处理器运行频率;第二唤醒门限值大于第一唤醒门限值;对第一音频段之后的第二音频段进行语音唤醒识别,得到第二音频段集合的唤醒值;第二音频段集合的唤醒值用于表征第二音频段集合中包括唤醒词的置信度;响应于第二音频段集合的唤醒值大于或等于第二唤醒门限值,唤醒电子设备。根据本申请的技术,提升了电子设备的唤醒效率。

    一种电子设备的语音唤醒方法、电子设备及存储介质

    公开(公告)号:CN117476006A

    公开(公告)日:2024-01-30

    申请号:CN202311607968.6

    申请日:2023-11-27

    发明人: 李林峰

    摘要: 本公开提供了一种语音唤醒方法、电子设备及存储介质,该方法包括:对接收到的语音数据中的第一语音帧依次进行语音唤醒识别,直至识别到置信度满足唤醒条件的第一语音帧后,唤醒所述电子设备;其中,相邻的两个第一语音帧之间相差的第二语音帧的帧数是根据所述相邻的两个第一语音帧中前语音帧的置信度确定的,且,所述相差的第二语音帧的帧数随所述前语音帧的置信度的增大而减小或不变。

    处理音频数据的方法及装置、音频数据处理设备和介质

    公开(公告)号:CN116959421A

    公开(公告)日:2023-10-27

    申请号:CN202311218395.8

    申请日:2023-09-21

    摘要: 本公开的至少一实施例提供了一种处理音频数据的方法和装置、音频数据处理设备和计算机可读存储介质。本公开的至少一实施例所提供的方法针对由语音交互设备获取的音频数据,分别从中提取语音特征和语音文本,继而基于语音特征和语音文本确定对音频数据的拒识概率,并且基于语音特征对该音频数据所属的场景进行分类,以联合所确定的拒识概率和场景分类结果共同确定语音交互设备对该音频数据的最终拒识结果。该方法能够利用包括声音和文本的多模态信息进行拒识概率确定,并且利用从音频数据中提取的场景信息来判断语音交互设备的当前使用场景是否属于交互场景,从而基于两类结果的融合实现更准确的语音交互拒识判断。

    处理音频数据的方法、设备、存储介质、和语音识别系统

    公开(公告)号:CN118230728A

    公开(公告)日:2024-06-21

    申请号:CN202410176378.0

    申请日:2024-02-07

    摘要: 本公开的至少一实施例提供了一种处理音频数据的方法、计算机程序产品、存储介质、语音交互设备、语音识别设备以及语音识别系统。本公开的方法针对语音交互设备在被唤醒后采集的第一音频数据,首先基于该第一音频数据的命令词识别结果来确定该第一音频数据中与场景类别切换相关联的命令词,并确定要切换至的场景类别,从而基于该要切换至的场景类别来确定用于在该场景类别下获取的第二音频数据的压缩编码的码率,以基于所确定的码率对该第二音频数据执行压缩编码。通过该方法能够根据业务场景并选择性地结合音频质量,选择不同的压缩编码码率来对音频数据进行压缩和传输,从而在保证音频识别准确度的前提下,降低码率并减少功耗。