- 专利标题: 基于人工智能的说话人识别方法及装置、系统
-
申请号: CN201910833635.2申请日: 2019-06-17
-
公开(公告)号: CN110660102B公开(公告)日: 2020-10-27
- 发明人: 揭泽群 , 葛政 , 刘威
- 申请人: 腾讯科技(深圳)有限公司
- 申请人地址: 广东省深圳市南山区高新区科技中一路腾讯大厦35层
- 专利权人: 腾讯科技(深圳)有限公司
- 当前专利权人: 腾讯科技(深圳)有限公司
- 当前专利权人地址: 广东省深圳市南山区高新区科技中一路腾讯大厦35层
- 代理机构: 深圳市隆天联鼎知识产权代理有限公司
- 代理商 刘抗美
- 主分类号: G06T7/73
- IPC分类号: G06T7/73 ; G06K9/00 ; G06F16/29 ; G06F16/23
摘要:
本发明涉及图像处理技术领域,具体而言,涉及一种基于人工智能的说话人识别方法及装置、系统以及电子设备。所述识别方法包括:获取待检测图像并对其进行人脸识别处理以获取至少一个人脸坐标;识别待检测图像中的音频采集设备,以获取音频采集设备的第一坐标数据;根据音频采集设备的第一坐标数据与历史坐标数据计算位移数据,以根据位移数据计算音频采集设备的精确坐标;计算精确坐标与所述至少一个人脸坐标之间的物间距离,并将具有最小物间距离的人脸坐标对应的对象作为说话人。本发明的技术方案在确定待检测图像中的人脸以及唯一的音频采集设备后,可结合历史坐标数据对音频采集设备坐标的正确性进行判断并优化,提升说话人识别的精确度。
公开/授权文献
- CN110660102A 基于人工智能的说话人识别方法及装置、系统 公开/授权日:2020-01-07