语音唤醒方法和设备
    3.
    发明授权

    公开(公告)号:CN113571053B

    公开(公告)日:2024-07-30

    申请号:CN202010352298.8

    申请日:2020-04-28

    发明人: 黎椿键 施栋

    摘要: 本申请涉及语音唤醒技术领域,尤其涉及一种语音唤醒方法和设备。其中,所述语音唤醒方法,应用于具有麦克风的电子设备,包括:检测到满足第一条件的至少两路麦克风输入的语音信号;根据所述至少两路麦克风输入的语音信号的语音能量是否满足第二条件,确定是否唤醒电子设备;其中,如果满足所述第二条件,则唤醒电子设备;如果不满足所述第二条件,则继续检测麦克风输入的语音信号。基于本申请实施例的方法和设备,可以实现以免唤醒词方式语音唤醒电子设备。

    数字助理系统中的声音识别
    4.
    发明公开

    公开(公告)号:CN118335091A

    公开(公告)日:2024-07-12

    申请号:CN202410549025.0

    申请日:2020-05-15

    申请人: 苹果公司

    摘要: 本公开涉及数字助理系统中的声音识别。本公开提供了用于操作智能自动化助理的系统和过程。一种示例方法包括从一个或多个外部电子设备接收用于多个用户的多个说话者配置文件;接收自然语言语音输入;基于将自然语言语音输入与多个说话者配置文件进行比较来确定:自然语言语音输入对应于多个用户中的第一用户的第一可能性;以及自然语言语音输入对应于多个用户中的第二用户的第二可能性;确定第一可能性和第二可能性是否在第一阈值内;并且根据确定第一可能性和第二可能性不在第一阈值内:提供对自然语言语音输入的响应,该响应针对第一用户被个性化。

    一种音频信号处理方法及装置

    公开(公告)号:CN110880327B

    公开(公告)日:2024-07-09

    申请号:CN201911038804.X

    申请日:2019-10-29

    IPC分类号: G10L17/02 G10L17/04 G10L17/22

    摘要: 本申请公开一种音频信号处理的方法及装置,其中,所述音频信号处理方法包括:获取待处理的第一音频信号;确定所述第一音频信号包含的至少一个音素;计算所述至少一个音素的音素覆盖率,若所述音素覆盖率满足目标条件,则将第一声纹识别模型更新为第二声纹识别模型。采用本申请的技术方案,能够保证最终得到的声纹识别模型是通过能较为完整地反映用户发音特征的音频信号训练得到的,提高声纹识别模型进行说话人辨识的准确度。

    产品级定制的多路声纹识别的注册、验证方法及系统

    公开(公告)号:CN118248151A

    公开(公告)日:2024-06-25

    申请号:CN202410381801.0

    申请日:2024-03-29

    发明人: 龚建明 顾向涛

    摘要: 本发明实施例提供一种产品级定制的多路声纹识别的注册、验证方法及系统。该方法包括:资源管理器预加载领域级别的第一资源,并初始化产品级别的第二资源;接收定制产品的注册音频,提取注册音频的Fbank特征;将Fbank特征输入至领域级别的第一资源,确定出通用声纹嵌入;将通用声纹嵌入输入至产品级别的第二资源,确定出多路资源声纹嵌入,并通过资源管理器将定制产品的多路资源声纹嵌入独立更新至产品级别的第二资源;将多路资源声纹嵌入与注册音频的声纹ID关联存入声纹数据库,完成定制产品的注册。本发明实施例设计了多路声纹资源结构,保障产品基础的声纹性能,减少内存资源占用,提高声纹识别系统的稳定性,并提升产品的声纹识别性能。

    一种自动创建喜好频道的方法及其系统

    公开(公告)号:CN118214900A

    公开(公告)日:2024-06-18

    申请号:CN202410456495.2

    申请日:2024-04-16

    摘要: 本发明公开一种自动创建喜好频道的方法及其系统,语音识别模块连接语音命令处理模块,语音命令处理模块连接频道喜好计算模块;语音识别模块用于对语音进行声纹识别、性别识别、年龄识别和语音命令识别;语音命令处理模块用于对语音命令进行语义解析,并基于语音命令进行切换频道、语音唤醒和语音关机;频道喜好计算模块用于分析切换频道和语音关机的具体状态信息,计算频道的频道权值以生成或更新频道喜好列表;用户信息管理模块用于创建并管理不同用户声纹的用户账户,每个用户账户存储有各用户的声纹信息、用户性别、用户年龄和频道喜好列表以供调用。本发明通过语音识别用户年龄、性别、声纹信息创建个人喜好频道,对频道喜好程度进行计算并根据喜好程度进行频道排序。

    声纹模型训练和声纹识别方法、装置、设备及介质

    公开(公告)号:CN113948089B

    公开(公告)日:2024-06-14

    申请号:CN202010622080.X

    申请日:2020-06-30

    发明人: 王岩全 李宝祥

    摘要: 本发明公开了一种声纹模型的训练和声纹识别方法、装置、设备及介质。通过原始声纹模型,确定目标家庭样本集中语音样本中包含的每个语音帧对应的第一声纹向量,将每个第一声纹向量加权后的向量和确定为该语音样本的声纹特征向量,根据该声纹特征向量以及已注册的声纹特征向量,确定第二标识信息,根据第一标识信息和第二标识信息,对原始声纹模型进行训练,从而实现只需根据目标家庭样本集中的语音样本,即可训练出目标家庭对应的声纹模型,节省训练得到声纹模型的时间,由于该声纹模型只需对目标家庭中家庭成员的声纹特征向量进行识别,因此该声纹模型更加小型化。

    一种多维度智能唤醒电子设备的方法、系统及存储介质

    公开(公告)号:CN118152020A

    公开(公告)日:2024-06-07

    申请号:CN202410314712.4

    申请日:2024-03-19

    发明人: 李诗全

    摘要: 一种多维度智能唤醒电子设备的方法、系统及存储介质,其包括获取唤醒词的至少两个唤醒词元素,并通过排列组合的方式基于唤醒词元素自动生成多种唤醒词,用于执行对应的唤醒操作;获取唤醒词与唤醒类型的对应关系设置;唤醒类型包括应答唤醒、功能唤醒、交互唤醒其中一种或两种以上;应答唤醒为唤醒多个电子设备中某一指定设备的唤醒操作;功能唤醒为唤醒多个电子设备中的某一指定设备并令其执行指定功能的唤醒操作;交互唤醒为唤醒多个电子设备中的某一指定设备并调用指定交互风格的AI虚拟角色与用户进行交互的唤醒操作;检测是否存在唤醒词输入,若是,则获取对应关系以确定唤醒类型并执行对应的唤醒操作,若否,则继续检测。

    声纹识别方法、装置、电子设备和存储介质

    公开(公告)号:CN114913859B

    公开(公告)日:2024-06-04

    申请号:CN202210536790.X

    申请日:2022-05-17

    发明人: 赵情恩

    摘要: 本公开提供了一种声纹识别方法、装置、电子设备和存储介质,涉及深度学习、语音技术等人工智能技术领域。具体实现方案为:获取待识别的目标音频数据,并基于目标音频数据,获取对应的局部音频特征和全局音频特征;将局部音频特征输入声纹识别模型的学生网络,以得到学生网络输出的第一声纹特征;将全局音频特征输入声纹识别模型的教师网络,以得到教师网络输出的第二声纹特征;基于第一声纹特征和第二声纹特征,确定目标音频数据对应的目标声纹特征。通过利用学生网络和教师网络,分别基于目标音频数据对应的局部音频特征和全局音频特征这两种不同特点的特征,获取目标音频数据对应的目标声纹特征,提高了声纹识别的准确性。