-
公开(公告)号:CN112084370B
公开(公告)日:2024-11-15
申请号:CN202010949290.X
申请日:2020-09-10
申请人: 维沃移动通信有限公司
发明人: 彭述功
IPC分类号: G06F16/738 , G06F16/783 , G06F16/71 , G06F16/75
-
公开(公告)号:CN118897905A
公开(公告)日:2024-11-05
申请号:CN202411388560.9
申请日:2024-10-08
IPC分类号: G06F16/735 , G06F16/783 , G06F16/738 , G06N3/0455 , G06N3/08
摘要: 本发明属于视频检索技术领域,提供了一种基于细粒度时空关联建模的视频片段定位方法及系统,其技术方案为:获取视频片段,利用时空查询表示,隐式挖掘视频片段中潜在所有物体信息;随后,基于时空表示多维交互模块,充分建模物体间时空关联关系;之后,通过有机融合局部和全局表示,全面提升视频片段的表示能力;最后,依据视频片段表示与用户查询表示相似性分数确定目标视频片段。本发明克服了现有技术中依赖离线物体检测工具进行物体时空信息提取、物体细粒度交互信息建模不充分等导致视频理解不佳的问题。
-
公开(公告)号:CN113987324B
公开(公告)日:2024-11-01
申请号:CN202111229055.6
申请日:2021-10-21
申请人: 北京达佳互联信息技术有限公司
IPC分类号: G06F18/2431 , G06F18/213 , G06N3/08 , G06F18/214 , G06F16/9532 , G06F16/9538 , G06F16/732 , G06F16/738
摘要: 本公开关于一种数据处理方法、装置、系统、设备及存储介质,涉及计算机技术领域,可以提高数据处理的效率。该数据处理方法包括:接收数据请求方发送的特征数据获取请求;特征数据获取请求包括数据请求标识;响应于特征数据获取请求,调用预先配置好的配置文件,获取与数据请求标识对应的多个样本数据,并将多个样本数据转换成多个特征数据;多个样本数据包括搜索词和搜索结果;多个样本数据中的至少两个样本数据的数据类型不同;多个特征数据与多个样本数据一一对应;多个特征数据中的每个特征数据的数据类型相同;向数据请求方发送多个特征数据;多个特征数据用于训练生成用于预测用户搜索行为的行为预测模型。
-
公开(公告)号:CN118861362A
公开(公告)日:2024-10-29
申请号:CN202410907660.1
申请日:2024-07-08
申请人: 贵州多彩新媒体股份有限公司
IPC分类号: G06F16/783 , G06F16/78 , G06F16/71 , G06F16/732 , G06F16/738 , G06N3/0455 , G06N3/0442 , G06N3/0464 , G06N3/084 , H04N21/232 , H04N21/233 , H04N21/234 , H04N21/235 , H04N21/432 , H04N21/435 , H04N21/439 , H04N21/44
摘要: 本发明公开了一种基于视频理解的多模态检索方法,包括以下步骤:获取和解析用户检索请求,所述检索请求包括特征关键词;根据所述特征关键词,在视频多维向量数据库执行相似检索,获取检索结果返回用户端;所述检索结果包括:视频名称和对应播放信息;所述相似检索指:将所述特征关键词向量化,在所述视频多维向量数据库进行向量值比对,返回检索结果。根据上述技术方案,可以通过多模态视频信息向量的相似度搜索,并按相似度高低排序搜索结果,可达到更准确、更快速的视频内容检索,极大提升IPTV大屏用户搜索、推荐体验。
-
公开(公告)号:CN114707018B
公开(公告)日:2024-10-25
申请号:CN202210336380.0
申请日:2022-03-30
申请人: 腾讯科技(深圳)有限公司
发明人: 刘楚妮
IPC分类号: G06F16/735 , G06F16/78 , G06F16/738 , G06F16/783 , G06F40/194 , G06F40/216 , G06F40/284
摘要: 一种视频内容推送方法、装置及相关设备,可以应用于云技术、人工智能、车联网、智慧交通、智能家居等各种领域或场景,该方法包括:获取针对目标对象的视频内容推送请求,视频内容推送请求包括与热点事件相关的描述文本;根据召回的N个候选视频的视频文本信息与描述文本之间的相似度进行时间浓度分析确定目标时间段;根据目标时间段内的候选视频的视频文本信息对每个候选视频进行阈值识别处理,确定每个候选视频的相似度阈值;根据每个候选视频的视频文本信息与描述文本之间的相似度,以及每个候选视频的相似度阈值,确定与描述文本匹配的候选视频,并向目标对象推送该匹配的候选视频。本申请实施例,可以提高视频内容推送的准确性。
-
公开(公告)号:CN118820522A
公开(公告)日:2024-10-22
申请号:CN202310436868.5
申请日:2023-04-20
申请人: 腾讯科技(深圳)有限公司
发明人: 王能
IPC分类号: G06F16/783 , G06F16/75 , G06F16/738 , G06V20/40 , G06V10/74 , G06V10/40 , G06V10/762 , G06F21/10
摘要: 本申请实施例公开了一种视频检测方法、装置、计算机设备及存储介质,属于计算机技术领域。该方法包括:显示侵权检测界面,侵权检测界面显示有视频输入区域和结果显示区域;响应于视频输入区域中输入的视频,基于视频中的第一视频帧的特征向量,在检索库中确定中心特征向量与第一视频帧的特征向量之间距离最小的N个特征簇;响应于N个特征簇中存在至少一个目标特征向量,确定至少一个目标特征向量对应的至少一个正版视频;在结果显示区域显示视频的检测结果,检测结果指示视频对至少一个正版视频存在侵权可能性。上述方案能够提高视频侵权检测的效率。
-
公开(公告)号:CN118734180A
公开(公告)日:2024-10-01
申请号:CN202310363596.0
申请日:2023-03-31
申请人: 腾讯科技(深圳)有限公司
IPC分类号: G06F18/2415 , G06F18/214 , G06F16/738 , G06F16/75 , G06F16/783 , G06F40/295
摘要: 本申请涉及一种模型训练方法、装置、计算机设备、存储介质和计算机程序产品。该方法涉及机器学习技术领域。方法包括:通过预训练粗排模型根据搜索文本与正样本确定正样本粗排得分,通过在线精排模型根据搜索文本与正样本确定正样本精排得分,以及通过预训练粗排模型根据搜索文本与负样本确定负样本粗排得分,通过在线精排模型根据搜索文本与负样本确定负样本精排得分;根据正样本粗排得分与正样本精排得分之间的差异、负样本粗排得分与负样本精排得分之间的差异,构建精粗排蒸馏损失,以及根据正样本粗排得分与负样本粗排得分,构建对比损失;根据精粗排蒸馏损失与对比损失,对预训练粗排模型进行模型训练。这样,能够对视频进行准确排序。
-
公开(公告)号:CN118733828A
公开(公告)日:2024-10-01
申请号:CN202310379796.5
申请日:2023-03-31
申请人: 腾讯科技(深圳)有限公司
IPC分类号: G06F16/738 , G06F16/75 , G06F40/30 , G06F18/241 , G06N3/0499 , G06N3/08
摘要: 本申请涉及一种视频排序方法、装置、设备、存储介质和计算机程序产品。该方法涉及人工智能技术,可应用于各类视频搜索领域,包括:通过训练好的粗排模型,获取搜索文本对应的第一编码向量,将第一编码向量映射到多个语义向量子空间得到多个第一子向量,获取与召回视频文本对应的第二编码向量,将第二编码向量映射到多个语义向量子空间,得到多个第二子向量;确定各第一子向量与各第二子向量之间的相似度,基于相似度与各第二子向量确定搜索文本对应的第一语义交互向量,基于相似度与各第一子向量确定召回视频文本对应的第二语义交互向量;根据第一语义交互向量与第二语义交互向量,确定粗排得分,能够提高对召回视频排序的准确性。
-
公开(公告)号:CN118690049A
公开(公告)日:2024-09-24
申请号:CN202410789135.4
申请日:2024-06-18
申请人: 北京百度网讯科技有限公司
IPC分类号: G06F16/738 , G06F16/75 , G06F16/783
摘要: 本公开提供了基于人工智能的集锦视频的生成方法、装置及电子设备,涉及人工智能技术领域,尤其涉及深度学习、自然语言处理、计算机视觉、语音技术、大模型等技术领域。具体实现方案为:获取视频集锦素材,其中包括待处理的原始视频;确定与视频集锦素材匹配的集锦处理流程;集锦处理流程中包括多个节点,每个节点对应一个素材处理子模型;根据视频集锦素材以及集锦处理流程中各个节点对应的素材处理子模型,确定原始视频中的关键视频片段;进而生成原始视频对应的集锦视频;其中,根据视频集锦素材,确定与视频集锦素材匹配的集锦处理流程,从而避免采用仅适用于特定场景的集锦处理流程进行处理,从而提高确定得到的集锦视频的准确度。
-
公开(公告)号:CN118673181A
公开(公告)日:2024-09-20
申请号:CN202410807668.0
申请日:2024-06-21
申请人: 中山大学
IPC分类号: G06F16/783 , G06F16/738 , G06F16/74 , G06V10/774 , G06V20/40
摘要: 本发明公开了一种频域引导增强的视频时刻检索方法与系统。输入视频数据并提取视觉特征和音频特征,进行单模态编码得到编码后的视频特征及音频特征;在频域空间利用用户查询文本特征对编码后的视频特征与音频特征进行引导,生成跨模态特征;利用文本特征与跨模态特征生成时刻对齐的查询特征;利用查询特征与跨模态特征解码生成用于视频时刻检索的特征序列;利用预测头对特征序列进行处理,并构造损失函数进行训练,输出视频时刻检索的结果。本发明采用频域引导的跨模态交互方法,在频域空间捕捉不同模态之间的共性;设计了一种新颖的显著性增强函数,不仅实现了跨模态融合,还具备轻量级特性,显著减少了模型参数量和计算复杂度。
-
-
-
-
-
-
-
-
-