-
公开(公告)号:CN119653175A
公开(公告)日:2025-03-18
申请号:CN202411706995.3
申请日:2024-11-27
Applicant: 北京工业大学
IPC: H04N21/44 , G06V20/62 , G06V20/40 , G06V10/774 , G06V10/82 , H04N21/435 , H04N21/488
Abstract: 联合显性知识和隐性知识增强的实体感知体育视频字幕生成方法属于视频分析与理解领域。现有的传统视频字幕生成方法难以直接根据视频的视觉内容生成带有球员身份和具体场景类别的文本描述。本发明利用参与比赛的球员列表作为显性知识帮助模型获取赛前知识。提出利用可学习向量在知识的引导下自适应捕获场景相关的视频特征。基于注意力机制,建模球员和视频内容的关系,生成实体相关的视频特征。提出了以“先场景后实体”为原则的解码器,增强了生成字幕的准确性和连贯性。建模视频时空动态信息来捕获视频帧间的时序和空间关系。在篮球数据集VC_NBA_2022,NSVA和足球数据集Goal上验证了本发明的有效性。
-
公开(公告)号:CN119990312A
公开(公告)日:2025-05-13
申请号:CN202510051388.6
申请日:2025-01-13
Applicant: 北京工业大学
IPC: G06N5/04 , G06V20/40 , G06V40/20 , G06V10/62 , G06V10/80 , G06V10/764 , G06V10/82 , G06F40/295 , G06F40/30 , G06F18/213 , G06F18/25 , G06F18/2431 , G06F18/2415 , G06N3/045 , G06N3/0455 , G06N3/0499 , H04N21/44 , H04N21/488
Abstract: 以球员为中心的身份感知篮球视频字幕生成方法属于视频分析与理解领域。传统方法难以生成包含球员身份和细粒度动作的字幕。本发明首先收集篮球比赛数据,包括事件文字描述和视频,并为每个视频片段标注关键球员的坐标框。基于坐标框裁剪球员序列,组织成以球员为中心的序列片段集合,并训练球员身份识别网络提取球员视觉特征和身份信息。利用交叉注意力机制实现视频与球员特征的双向增强,并通过可学习查询向量自适应学习视频视觉上下文信息。最终,将上下文信息与多模态特征拼接作为大语言模型的输入,引导生成包含球员身份的文本描述。本发明构建了球员身份感知的篮球视频字幕数据集NBA‑Identity。
-
公开(公告)号:CN119691537A
公开(公告)日:2025-03-25
申请号:CN202411265889.6
申请日:2024-09-11
Applicant: 北京工业大学
IPC: G06F18/241 , G06F18/2415 , G06F18/2411 , G06F18/243 , G06F18/27 , G06Q50/00 , G06N20/20
Abstract: 一种基于意外流行集成策略的虚假评论检测方法,属于计算机科学领域。本发明主要为意外流行集成策略与网络虚假评论的检测,通过结合意外流行算法与置信度成功构建能够准确检测大部分网络虚假评论的集成学习算法。首先使用Bert预处理模型对文本进行预处理,并去除停用词,再通过构建已知常见的二元分类器,为每个分类器训练回归模型对每个样本进行预测,同时结合预测结果和分类置信度计算样本的先验和后验概率,并结合意外流行算法思想得到最终预测结果。本发明通过结合意外流行算法思想可以有效弥补多数表决的缺陷,可以更加有效识别社交网络上的虚假评论内容。
-
-