-
公开(公告)号:CN116955699B
公开(公告)日:2024-04-26
申请号:CN202310882289.3
申请日:2023-07-18
Applicant: 北京邮电大学
IPC: G06F16/735 , G06N3/044 , G06N3/0442 , G06N3/08 , G06F16/783
Abstract: 本发明提供一种视频跨模态搜索模型训练方法、搜索方法及装置,对于用于检索的文本数据采用文字特征编码模型和初始文本语义映射网络映射至公共语义空间;被检索的科技视频通过光学字符识别和科技视频自动语音识别提取文本内容,提取首尾帧图像内容,分别进行特征提取后执行特征融合,并通过初始视频语义映射网络映射至公共语义空间;在下游构建相似度比对任务、语义分类任务和模态判别任务,对初始文本语义映射网络、初始模态融合网络和初始视频语义映射网络进行训练,提升文本和视频两种类型数据在公共语义空间内表示的精确度,并关注到模态内和模态间的关联及差异。
-
公开(公告)号:CN116955699A
公开(公告)日:2023-10-27
申请号:CN202310882289.3
申请日:2023-07-18
Applicant: 北京邮电大学
IPC: G06F16/735 , G06N3/044 , G06N3/0442 , G06N3/08 , G06F16/783
Abstract: 本发明提供一种视频跨模态搜索模型训练方法、搜索方法及装置,对于用于检索的文本数据采用文字特征编码模型和初始文本语义映射网络映射至公共语义空间;被检索的科技视频通过光学字符识别和科技视频自动语音识别提取文本内容,提取首尾帧图像内容,分别进行特征提取后执行特征融合,并通过初始视频语义映射网络映射至公共语义空间;在下游构建相似度比对任务、语义分类任务和模态判别任务,对初始文本语义映射网络、初始模态融合网络和初始视频语义映射网络进行训练,提升文本和视频两种类型数据在公共语义空间内表示的精确度,并关注到模态内和模态间的关联及差异。
-