-
公开(公告)号:CN110677614A
公开(公告)日:2020-01-10
申请号:CN201910982306.4
申请日:2019-10-15
申请人: 广州国音智能科技有限公司
摘要: 本发明公开了一种信息处理方法,包括如下步骤:获取视频会议系统所接收到的音频信息,以及所述音频信息对应的用户信息;基于所述音频信息和所述用户信息,确定视频会议当前发言人所发言的文字信息;基于所述文字信息,在所述视频会议系统的显示屏幕中的视频文本框显示所述文字信息。本发明还公开了一种信息处理装置及计算机可读存储介质。本发明实时将发言人当前发言的音频信息和发言人的用户信息转换成文字信息,并将文字信息实时显示于视频会议系统中的显示屏幕上,解决了参会人员容易错漏会议的重要内容的问题,并且能够快速在显示屏幕上输出会议记录的内容,提高了时效性和实用性,方便参会人员更好地了解和掌握会议内容。
-
公开(公告)号:CN110660399A
公开(公告)日:2020-01-07
申请号:CN201911099099.4
申请日:2019-11-11
申请人: 广州国音智能科技有限公司
摘要: 本发明公开了一种声纹识别的训练方法、装置、终端及计算机存储介质。所述声纹识别的训练方法包括:获取标识的声纹信息的声纹特征向量,将所述声纹特征向量作为声纹识别的神经网络的输入值,获取所述声纹识别的神经网络的输出值,基于所述输出值与所述标识的声纹信息的标识信息,调整所述声纹识别的神经网络的层结构,以获得更加精准的声纹识别的神经网络,进而提高声纹识别的神经网络的识别准确率。
-
公开(公告)号:CN110530494A
公开(公告)日:2019-12-03
申请号:CN201910818356.9
申请日:2019-08-30
申请人: 广州国音智能科技有限公司
摘要: 本申请实施例公开了一种声纹检测装置及方法,包括第一拾音传感器单元、第二拾音传感器及主控分析单元;第一拾音传感器单元通过接触测试者的方式采集测试者的第一声纹信号;第二拾音传感器单元采集通过空气传导的第二声纹信号;主控分析单元用于当测试者发声时,将第一声纹信号与第二声纹信号进行比对,判断是否为同一个人的声纹。本申请通过固体传导的方法避免了空旷室内环境以及噪声环境对声纹采集的影响。
-
公开(公告)号:CN110516426A
公开(公告)日:2019-11-29
申请号:CN201910775993.2
申请日:2019-08-21
申请人: 广州国音智能科技有限公司
摘要: 本发明公开了一种身份认证方法,包括以下步骤:在接收到身份认证请求时,语音提醒用户跟读认证语音内容,获取人脸视频,而后基于所述人脸视频进行人脸识别认证,并提取所述人脸视频中的语音数据,接下来在所述人脸识别认证失败时,基于预设的声纹模型获取所述语音数据对应的特征向量,基于所述特征向量进行声纹认证,最后在所述声纹认证通过后,响应所述身份认证请求。本发明还公开了一种装置、认证终端及可读存储介质。本发明在人脸识别的基础上,进一步获取用户的语音数据,当人脸视频中的人脸识别认证失败时,可以继续进行声纹识别,确认用户为真实的用户,以提高身份识别效率。
-
公开(公告)号:CN110364169A
公开(公告)日:2019-10-22
申请号:CN201910777107.X
申请日:2019-08-21
申请人: 广州国音智能科技有限公司
摘要: 本发明公开了一种声纹识别方法、装置、设备及计算机可读存储介质,该方法包括步骤:获取用于声纹识别的语音信息,并对语音信息进行分解,得到第一模态信号和除第一模态之外的模态信号;对第一模态信号进行降噪处理,再将降噪后的第一模态信号与除第一模态之外的模态信号进行相加重构,得到待识别声纹信息;计算待识别声纹信息的识别度;根据识别度判断待识别声纹信息是否为目标声纹。本发明提供了声纹识别的方法,提高了现有技术对声纹识别不准确的问题。
-
公开(公告)号:CN110351629A
公开(公告)日:2019-10-18
申请号:CN201910641453.5
申请日:2019-07-16
申请人: 广州国音智能科技有限公司
摘要: 本发明提供一种收音方法、收音装置及终端,适用于收音装置,通过在语音收录的过程中,控制各个TOF识别器识别预设区域内的对象,并获取识别的目标对象的位置信息;并针对每一收音器,根据目标对象的位置信息调整对应目标对象对应的收音器的指向方向,使收音器指向对应的目标对象;从而确定收录到最大声音音量的目标收音器,关闭其他收音器;再控制目标收音器收音,得到目标语音。本方案中,根据目标对象的位置,调整收音器的指向方向,使得所述收音器指向对应的目标对象,确定收录到最大声音音量的目标收音器,从而控制目标收音器收音。能够提高收音器的语音收录效果及语音收录的准确性,从而保证语音收录的质量。
-
公开(公告)号:CN110164454A
公开(公告)日:2019-08-23
申请号:CN201910440519.4
申请日:2019-05-24
申请人: 广州国音智能科技有限公司
摘要: 本申请实施例公开了一种基于共振峰偏差的音频同一性判别方法及装置,包括以下步骤:从同一文件中获取若干同一音素样本作为样本集合进行偏差分析,得到各音素样本的第一共振峰频率偏差值;判断样本集合中是否存在第一共振峰频率偏差值超过了预设的共振峰频率最大偏差,若是,剔除所有第一共振峰频率偏差值超过预置共振峰频率最大偏差的音素样本,并重新新的音素样本至样本集合中得到新的样本集合,将新的样本集合进行偏差分析,并反复迭代,直到样本集合中所有音素样本均属于同一个人。本申请对不需要依赖于鉴定人员的技术和经验,通过提取共振峰频率,在数据上做出更加准确的对比和判定,具有较高的可靠性。
-
公开(公告)号:CN109960685A
公开(公告)日:2019-07-02
申请号:CN201910233313.4
申请日:2019-03-26
申请人: 广州国音智能科技有限公司
发明人: 王泽龙
IPC分类号: G06F16/16 , G06F3/0481 , G10L21/14
摘要: 本申请实施例公开了一种处理音频文件的方法及相关装置,包括:在预设界面显示由音频文件转换得到的语谱图;当接收到区域选定指令后,实时获取指针在所述语谱图中的位置,所述指针预先设置在所述预设界面中且由相应的输入设备控制;根据指针在所述语谱图中的位置和预设规则实时获取待删除区域;当接收到擦除指令后,将获取到的所有所述待删除区域发送至后台,使得后台根据所述待删除区域对所述语谱图对应的三维频域矩阵进行删除处理;将经过删除处理的三维频域矩阵转换为音频的时域数据。解决了现有的方法只适用于会编程的程序员而不适用于一般工作人员的技术问题。
-
公开(公告)号:CN109948718A
公开(公告)日:2019-06-28
申请号:CN201910233316.8
申请日:2019-03-26
申请人: 广州国音智能科技有限公司
IPC分类号: G06K9/62
摘要: 本申请提供一种基于多算法融合的系统及方法,其中系统包括:接入层和存储层;存储层包括源数据数据库、算法系统、生物特征数据库;算法系统包括至少一个生物特征识别算法系统和调度中心;接入层用于接收数据并对数据进行标准化操作;源数据数据库用于接收接入层的数据并存储;调度中心用于通过生物特征识别算法系统提取源数据数据库中的数据的生物特征信息,并生成存储生物特征信息的生物特征数据库;调度中心还用于将生物特征识别算法系统输出的识别结果进行整合,输出综合结果。本申请利用多算法融合有效解决市场上单个生物特征识别算法系统从无法达到实战要求到满足实战要求这一个过渡期的技术难题。
-
公开(公告)号:CN109905764A
公开(公告)日:2019-06-18
申请号:CN201910217721.0
申请日:2019-03-21
申请人: 广州国音智能科技有限公司
IPC分类号: H04N21/439 , H04N21/845 , G06K9/62 , G06K9/00
摘要: 本申请实施例公开了一种视频中目标人物语音截取方法及装置,利用唇形语音活动检测模型,将音视频文件中目标人物进行了语音活动的视频帧赋予第一标记,而目标人物未进行语音活动的视频帧赋予第二标记,得到第一标记序列,再根据第一标记序列中连续预设数量的包含第一标记的视频帧的第一起止时间点,确定音视频文件中对应的语音帧的第二起止时间点,从而直接根据第二起止时间点将音视频文件中对应的语音片段截取出来,得到目标人物的语音片段文件,实现人声分离,解决了目前的人声分离算法对音频的清晰度要求较高,需要先对音频进行降噪处理后再做人声分离,在嘈杂的环境下,噪音影响大,存在的语音截取的难度大,语音截取的效率低的技术问题。
-
-
-
-
-
-
-
-
-