发明授权
- 专利标题: 使用视听数据进行说话分类
-
申请号: CN201980068550.8申请日: 2019-10-03
-
公开(公告)号: CN112889108B公开(公告)日: 2022-08-16
- 发明人: S.乔杜里 , O.克莱杰奇 , J.E.罗思
- 申请人: 谷歌有限责任公司
- 申请人地址: 美国加利福尼亚州
- 专利权人: 谷歌有限责任公司
- 当前专利权人: 谷歌有限责任公司
- 当前专利权人地址: 美国加利福尼亚州
- 代理机构: 北京市柳沈律师事务所
- 代理商 金玉洁
- 优先权: 16/161,927 20181016 US
- 国际申请: PCT/US2019/054445 2019.10.03
- 国际公布: WO2020/081239 EN 2020.04.23
- 进入国家日期: 2021-04-16
- 主分类号: G10L17/10
- IPC分类号: G10L17/10 ; G10L25/78
摘要:
用于生成针对目标人物在视频的部分期间是否正在说话的预测的方法、系统和装置,包括编码在计算机存储介质上的计算机程序。在一个方面,一种方法包括:获得每个图像描绘在相应时间点给定人物的嘴部的一个或多个图像。使用图像嵌入神经网络处理图像,以生成图像的潜在表示。使用音频嵌入神经网络处理对应于图像的音频数据,以生成音频数据的潜在表示。使用循环神经网络处理图像的潜在表示和音频数据的潜在表示,以生成针对给定人物是否正在说话的预测。
公开/授权文献
- CN112889108A 使用视听数据进行说话分类 公开/授权日:2021-06-01