使用视听数据进行说话分类

发明授权

请登陆查看更多内容

专利标题： 使用视听数据进行说话分类
申请号： CN201980068550.8

申请日： 2019-10-03
公开(公告)号： CN112889108B

公开(公告)日： 2022-08-16
发明人: S.乔杜里 , O.克莱杰奇 , J.E.罗思
申请人： 谷歌有限责任公司
申请人地址： 美国加利福尼亚州
专利权人： 谷歌有限责任公司
当前专利权人： 谷歌有限责任公司
当前专利权人地址： 美国加利福尼亚州
代理机构： 北京市柳沈律师事务所
代理商 金玉洁
优先权： 16/161,927 20181016 US
国际申请： PCT/US2019/054445 2019.10.03
国际公布： WO2020/081239 EN 2020.04.23
进入国家日期： 2021-04-16
主分类号： G10L17/10
IPC分类号： G10L17/10 ; G10L25/78

摘要：

用于生成针对目标人物在视频的部分期间是否正在说话的预测的方法、系统和装置，包括编码在计算机存储介质上的计算机程序。在一个方面，一种方法包括：获得每个图像描绘在相应时间点给定人物的嘴部的一个或多个图像。使用图像嵌入神经网络处理图像，以生成图像的潜在表示。使用音频嵌入神经网络处理对应于图像的音频数据，以生成音频数据的潜在表示。使用循环神经网络处理图像的潜在表示和音频数据的潜在表示，以生成针对给定人物是否正在说话的预测。

公开/授权文献

CN112889108A 使用视听数据进行说话分类公开/授权日：2021-06-01

信息查询

中国专利公布公告 Global Dossier Espacenet

IPC分类:

G	物理
G10	乐器；声学
G10L	语音分析或合成；语音识别；语音或声音处理；语音或音频编码或解码
G10L17/00	讲话者辨认或验证
G10L17/06	.决策方法，模式适配策略
G10L17/10	..多模态系统,即基于多个识别引擎的集成或专家系统的融合