语音与图像同步性衡量模型的训练方法及装置

发明授权

请登陆查看更多内容

专利标题： 语音与图像同步性衡量模型的训练方法及装置
申请号： CN202111058177.3

申请日： 2021-09-09
公开(公告)号： CN114494930B

公开(公告)日： 2023-09-22
发明人: 王淳 , 曾定衡 , 王洪斌 , 吴海英 , 周迅溢 , 蒋宁
申请人： 马上消费金融股份有限公司
申请人地址： 重庆市渝北区黄山大道中段52号渝兴广场B2栋4至8楼
专利权人： 马上消费金融股份有限公司
当前专利权人： 马上消费金融股份有限公司
当前专利权人地址： 重庆市渝北区黄山大道中段52号渝兴广场B2栋4至8楼
代理机构： 北京同立钧成知识产权代理有限公司
代理商 杨泽; 刘芳
主分类号： G06V20/40
IPC分类号： G06V20/40 ; G06V40/16 ; G06V10/82 ; G06N3/0464 ; G06N3/08 ; G10L15/04 ; G10L15/06 ; G10L15/16

摘要：

本申请提供一种语音与图像同步性衡量模型的训练方法及装置，该方法包括：将第一图像片段处理为第一图像数据、第一语音片段处理为第一语音数据、第二语音片段处理为第二语音数据，将随机图像片段处理为第二图像数据、随机语音片段处理为第三语音数据，将第一图像数据和第一语音数据组成正样本，将第一图像数据和第二语音数据组成第一负样本，将第一图像数据和第三语音数据组成第二负样本，将第一语音数据或第二语音数据，和第二图像数据组成第三负样本，采用正样本、第一负样本、第二负样本和第三负样本训练语音与图像同步性衡量模型。这样，使得训练样本的类型更加丰富，能够提高语音与图像同步性衡量模型的精确度。

公开/授权文献

CN114494930A 语音与图像同步性衡量模型的训练方法及装置公开/授权日：2022-05-13

信息查询

中国专利公布公告 Global Dossier Espacenet

IPC分类:

G	物理
G06	计算；推算或计数
G06V	图像或视频识别或理解
G06V20/00	场景；特定场景元素（控制数码相机 H04N5/232）
G06V20/40	.在视频内容中（提取叠加文本 G06V20/62）（视频检索 G06F16/70）（在视频服务器中处理视频基本流H04N21/234）（在视频客户端中处理视频基本流H04N21/44）