-
公开(公告)号:CN111243606A
公开(公告)日:2020-06-05
申请号:CN202010039353.8
申请日:2018-05-08
申请人: 苹果公司
摘要: 本发明涉及用户特定的声学模型。更具体而言,本发明提供了用于提供用户特定的声学模型的系统和过程。根据一个示例,方法包括在具有一个或多个处理器的电子设备处接收多个语音输入,这些语音输入中的每个语音输入与电子设备的相同用户相关联;将多个语音输入中的每个语音输入提供给用户独立的声学模型,该用户独立的声学模型提供多个语音结果;在电子设备上发起用户特定的声学模型;以及基于多个语音输入和多个语音结果来调节用户特定的声学模型。
-
公开(公告)号:CN111243603A
公开(公告)日:2020-06-05
申请号:CN202010020758.7
申请日:2020-01-09
申请人: 厦门快商通科技股份有限公司
摘要: 本发明提供了一种声纹识别方法、系统、移动终端及存储介质,该方法包括:获取样本数据,根据本地预设音素对样本数据进行音素提取,得到样本语音段及样本语音段对应的用户标识;根据样本语音段和用户标识对声纹识别模型进行声纹注册,并获取待识别语音;将待识别语音输入声纹识别模型,并控制声纹识别模型对待识别语音中的待识别音素与样本语音段进行声纹匹配,得到匹配结果;当判断到匹配结果满足输出条件时,根据匹配结果查询目标用户标识,并将目标用户标识进行输出。本发明通过基于音素的提取进行声纹注册,以采用音素匹配的方式进行待识别语音的声纹识别,有效的提高了声纹识别的识别效率和准确性。
-
公开(公告)号:CN111192590A
公开(公告)日:2020-05-22
申请号:CN202010072558.6
申请日:2020-01-21
申请人: 苏州思必驰信息科技有限公司
发明人: 杨程
摘要: 本发明实施例公开了一种语音唤醒方法、装置、设备及存储介质。所述方法包括:实时获取语音信息,识别所述语音信息对应的环境类型;根据所述语音信息对应的环境类型从预设的唤醒模型组中,确定目标唤醒模型,所述唤醒模型组中包括至少两个唤醒模型,不同的唤醒模型对应于不同的环境类型;将所述语音信息输入至所述目标唤醒模型进行唤醒词的检测,并在确定检测到所述唤醒词时执行设备唤醒操作。通过本发明的技术方案,能够在不同场景下同时兼顾较高的唤醒率及较低的误唤醒率。
-
公开(公告)号:CN111128197A
公开(公告)日:2020-05-08
申请号:CN201911356481.9
申请日:2019-12-25
申请人: 北京邮电大学
摘要: 本发明提供了一种基于声纹特征与生成对抗学习的多说话人语音分离方法,用以解决现有技术中语音分离不够准确和纯净的问题。所述多说话人语音分离方法,对目标说话人、其他无关说话人、噪声的音频数据混合得到初始混合训练语料,对目标说话人的纯净训练语料和初始化生成器的分离结果提取声纹特征,完成对判别器的训练;判别器参数固化后,再完成生成器的训练;参数固化的生成器通过生成对抗学习从待分离语音中分离出目标说话人语音。本发明利用了生成对抗学习能生成与目标相似的样本,通过生成对抗网络不断逼近输出分布,减小了多说话人干扰环境中语音数据和真实目标说话人训练数据的分布差异,实现目标说话人音频的跟踪识别。
-
公开(公告)号:CN111048097A
公开(公告)日:2020-04-21
申请号:CN201911318077.2
申请日:2019-12-19
申请人: 中国人民解放军空军研究院通信与导航研究所 , 西北工业大学
摘要: 本发明公开了一种用于声纹识别的基于3D卷积的孪生网络,包括:特征提取单元:用于将音频数据转化为三维张量,所述三维张量即为MFLC特征。Sia-Net网络:用于处理所述的MFLC特征,缩短同一说话人之间数据的特征距离,增大不同说话人之间数据的特征距离。CNN网络:用于建立每一个说话人的模型库。预测单元:用于测试音频数据的说话人身份。使用该网络进行声纹识别,既可以对语音信息进行充分的监督学习,还可以兼顾语音信息的时域信息,进一步提高了声纹识别的正确率。
-
公开(公告)号:CN110956966A
公开(公告)日:2020-04-03
申请号:CN201911059843.8
申请日:2019-11-01
申请人: 平安科技(深圳)有限公司
摘要: 本申请提供了一种声纹认证方法、装置、介质及电子设备。该方法包括:获取目标用户在预设时间段前的声纹信息、年龄、性别和所处环境;将目标用户在预设时间段前的声纹信息、年龄、性别和所处环境输入第一预测模型得到预测声纹信息;采集当前用户的待认证声纹信息;将预测声纹信息与待认证声纹信息进行匹配,以获得第一匹配度;若第一匹配度超过第一预设阈值,则将当前用户确定为目标用户。由于在预测声纹信息时考虑了目标用户的年龄、性别和所处环境,使以该预测声纹信息为标准识别出的目标用户不受时间的干扰。本申请能够进行声纹认证。
-
-
公开(公告)号:CN110838296A
公开(公告)日:2020-02-25
申请号:CN201911126595.4
申请日:2019-11-18
申请人: 锐迪科微电子科技(上海)有限公司
摘要: 本发明公开了一种录音过程的控制方法、系统、电子设备和存储介质,所述控制方法包括:在录音设备开始录音后,在检测到目标用户开始输入语音信号时获取第一设定帧数的第一语音信号;获取第一基音周期及第一基音周期序列;在设定时长后,获取第二设定帧数的第二语音信号;获取第二基音周期及第二基音周期序列;根据第一基音周期序列和第二基音周期序列确定输入第二语音信号的当前用户不是目标用户时,控制录音设备停止录音。本发明能够实现在目标用户已经停止说话且有非目标用户录入语音时及时停止录音,以避免对后续的语音识别和语义理解产生误差;能够有效地提高VAD检测录入语音的起始点和结束点的准确性,提升了用户的使用体验。
-
公开(公告)号:CN105304088B
公开(公告)日:2020-02-14
申请号:CN201510761925.2
申请日:2015-11-10
申请人: 华为技术有限公司
摘要: 本发明公开了一种控制接入的方法和装置,该方法包括:系统中的接入控制设备接收语音输入设备发送的处理语音,该处理语音是该语音输入设备采用第一处理信号对用户的输入语音进行处理生成的,该输入语音用于对该用户接入系统进行安全认证;该接入控制设备采用第二处理信号对该系统中预存储的该用户的原始语音进行处理生成参考语音,该原始语音是该接入控制设备中预存储的用于对该用户接入该系统进行安全认证的对比语音,该第一处理信号与该第二处理信号相同;该接入控制设备根据该处理语音与该参考语音的语音特征的匹配度,确定是否允许该用户接入该系统。因此,本发明实施例的控制接入的方法和装置,能够避免用户恶意接入系统。
-
公开(公告)号:CN110197664B
公开(公告)日:2020-01-21
申请号:CN201910586991.9
申请日:2019-07-02
申请人: 上海交通大学
摘要: 一种基于FMCW与特征表达迁移的声道用户验证方法,通过FMCW技术采集包含声道行为特征的调制语音信号,经预处理和特征提取后得到包含声道行为特征的频差序列,再由编解码神经网络将包含声道行为特征的频差序列迁移至语音特征并通过构建用户认证模型实现声道用户的注册和认证。本发明直接采用基于语音声纹的用户认证模型,其只需要少量的数据去取得令人满意的性能。
-
-
-
-
-
-
-
-
-