一种基于注意力的抗遮挡多目标跟踪方法

    公开(公告)号:CN117252908B

    公开(公告)日:2024-11-26

    申请号:CN202310878608.3

    申请日:2023-07-17

    Abstract: 本发明提供了一种基于注意力的抗遮挡多目标跟踪方法。该方法包括:主干网络获得该第t帧图片中检测目标的特征;根据遮挡情况将第t帧图片中检测目标的特征划分为独立跟踪目标特征和非独立跟踪目标特征,将非独立跟踪目标特征划分为跟踪目标特征和遮挡目标特征;将独立跟踪目标特征和时序信息聚合后的非独立跟踪目标特征输入到检测网络,检测网络输出预测目标在第t帧图片中的位置;将检测网络输出的检测目标在第t‑1帧图片和第t帧图片的预测位置进行数据关联,得到检测目标的跟踪轨迹。本发明基于注意力机制提高外观特征的区分度,增强算法在遮挡场景下的鲁棒性,减少目标长时消失场景下的身份变化,提升多目标跟踪的识别跟踪准确率和稳定性。

    一种基于频域增强的压缩视频人体行为识别方法

    公开(公告)号:CN116959100B

    公开(公告)日:2024-10-11

    申请号:CN202310732026.4

    申请日:2023-06-20

    Abstract: 本发明提供了一种基于频域增强的压缩视频人体行为识别方法。该方法包括:构建频域增强FE模块,所述FE模块包括时间‑通道双头注意力TCTHA模块和频段重叠的分组卷积FOGC模块;将所述FE模块插入到骨干网络为ResNet‑50的网络中,得到频域增强的压缩视频人体行为识别FENet网络,对所述FENet网络进行训练;将待识别的压缩视频数据输入到训练好的FENet网络中,FENet网络输出所述待识别的压缩视频的人体行为识别结果。本发明方法解决了频域学习的低频纹理和边缘线索丢失问题、时空建模不足的问题,与其他基于频域数据的方法相比,达到了更高的识别准确率,与其他基于压缩域数据的方法和基于RGB数据方法相比,也达到了具有竞争力的准确率,同时具有较高的效率。

    一种基于多尺度特征相关性增强的单目图像深度估计方法

    公开(公告)号:CN116823908B

    公开(公告)日:2024-09-03

    申请号:CN202310758435.1

    申请日:2023-06-26

    Abstract: 本发明提供了一种基于多尺度特征相关性增强的单目图像深度估计方法。该方法包括:利用多模态RGB‑Depth融合模块对输入的RGB图像进行数据增强的预处理操作;使用多尺度深度编码模块提取数据增强后的多尺度特征图;在解码阶段使用RFF模块获取细粒度特征图,使用MFCE模块增强多尺度特征中的不同尺度间特征的相关性,通过结合RFF模块和MFCE模块融合和优化特征图,并获得逐像素深度图;通过深度表征目标函数优化整个单目深度估计网络模型的训练,确保泛化能力。本发明方法增强全局特征与局部特征之间的相关性,学习有效的外观结构信息,解决了由纹理偏差导致对外观结构错误估计的问题,重建了清晰稠密的单目深度图。

    基于双流自监督网络的语音识别方法、装置、设备及介质

    公开(公告)号:CN116863920B

    公开(公告)日:2024-06-11

    申请号:CN202310874348.2

    申请日:2023-07-17

    Abstract: 本发明提供了一种基于双流自监督网络的语音识别方法、装置、设备及介质,包括:利用编码与量化模块对目标声学特征进行编码与量化获得语音向量;利用重构预测模块对语音向量进行重构预测获得第一语音表示;同时,利用对比预测模块中的自回归模型对语音向量进行预测获得第二语音表示;利用特征融合子模块对第一语音表示与第二语音表示进行融合获得融合后语音表示;基于目标声学特征,结合第一子模型与CTC模块中的连接时序分类器对融合后语音表示进行识别获得转录文本。本发明能够关注语音详细的上下文信息及语音不同特征之间的差异信息,提高自监督学习的鲁棒性,有效结合生成式和判别式自监督学习的互补优势。

    一种基于注意力的抗遮挡多目标跟踪方法

    公开(公告)号:CN117252908A

    公开(公告)日:2023-12-19

    申请号:CN202310878608.3

    申请日:2023-07-17

    Abstract: 本发明提供了一种基于注意力的抗遮挡多目标跟踪方法。该方法包括:主干网络获得该第t帧图片中检测目标的特征;根据遮挡情况将第t帧图片中检测目标的特征划分为独立跟踪目标特征和非独立跟踪目标特征,将非独立跟踪目标特征划分为跟踪目标特征和遮挡目标特征;将独立跟踪目标特征和时序信息聚合后的非独立跟踪目标特征输入到检测网络,检测网络输出预测目标在第t帧图片中的位置;将检测网络输出的检测目标在第t‑1帧图片和第t帧图片的预测位置进行数据关联,得到检测目标的跟踪轨迹。本发明基于注意力机制提高外观特征的区分度,增强算法在遮挡场景下的鲁棒性,减少目标长时消失场景下的身份变化,提升多目标跟踪的识别跟踪准确率和稳定性。

    一种基于一致片段选择的视听事件定位方法

    公开(公告)号:CN116310975A

    公开(公告)日:2023-06-23

    申请号:CN202310241056.5

    申请日:2023-03-14

    Abstract: 本发明提供了一种基于一致片段选择的视听事件定位方法。该方法包括:从待进行识别的视听事件的视频流中提取初步的视觉特征和听觉特征;将初步的视觉特征和听觉特征通过双向引导的共同注意力,得到增强后的视觉特征和听觉特征;从增强后的视觉特征和听觉特征中选择出语义一致的视听片段对;对语义一致的视听片段对进行视听特征融合,得到视听融合特征;根据视听融合特征对待进行识别的视听事件进行识别,获取待进行识别的视听事件的事件定位信息。本发明方法通过一致片段选择模块计算两两视听片段的关联关系,对于关联得分高的视听对有着一致的语义,将其保留,并对保留下来的视听对进行全局建模,获取整个视频的语义信息。

    一种基于胶囊网络的半自回归图像描述方法

    公开(公告)号:CN116229162A

    公开(公告)日:2023-06-06

    申请号:CN202310136646.1

    申请日:2023-02-20

    Abstract: 本发明提供了一种基于胶囊网络的半自回归图像描述方法。该方法包括:提取图像特征,将提取的图像特征输入到Transformer编码器中进行处理得到视觉上下文特征;将所述视觉上下文特征和语言特征输入到Transformer解码器的跨模态注意层,进行跨模态语义计算;将跨模态语义计算结果输入到改进的胶囊网络层中,进行候选词汇时序属性学习,得到各个候选词汇;通过线性计算和softmax函数计算各个候选词汇的输出概率,得到图像的描述语句。本发明通过组掩码保持组内非自回归并行推理属性,提高推理速度;又引入胶囊网络增强整体模型词间依赖关系获取,提高生成语言的质量,在推理速度和语言质量之间达到一个较好的平衡。

    一种基于胶囊网络的半自回归图像描述方法

    公开(公告)号:CN116229162B

    公开(公告)日:2024-07-30

    申请号:CN202310136646.1

    申请日:2023-02-20

    Abstract: 本发明提供了一种基于胶囊网络的半自回归图像描述方法。该方法包括:提取图像特征,将提取的图像特征输入到Transformer编码器中进行处理得到视觉上下文特征;将所述视觉上下文特征和语言特征输入到Transformer解码器的跨模态注意层,进行跨模态语义计算;将跨模态语义计算结果输入到改进的胶囊网络层中,进行候选词汇时序属性学习,得到各个候选词汇;通过线性计算和softmax函数计算各个候选词汇的输出概率,得到图像的描述语句。本发明通过组掩码保持组内非自回归并行推理属性,提高推理速度;又引入胶囊网络增强整体模型词间依赖关系获取,提高生成语言的质量,在推理速度和语言质量之间达到一个较好的平衡。

    一种基于一致片段选择的视听事件定位方法

    公开(公告)号:CN116310975B

    公开(公告)日:2024-06-25

    申请号:CN202310241056.5

    申请日:2023-03-14

    Abstract: 本发明提供了一种基于一致片段选择的视听事件定位方法。该方法包括:从待进行识别的视听事件的视频流中提取初步的视觉特征和听觉特征;将初步的视觉特征和听觉特征通过双向引导的共同注意力,得到增强后的视觉特征和听觉特征;从增强后的视觉特征和听觉特征中选择出语义一致的视听片段对;对语义一致的视听片段对进行视听特征融合,得到视听融合特征;根据视听融合特征对待进行识别的视听事件进行识别,获取待进行识别的视听事件的事件定位信息。本发明方法通过一致片段选择模块计算两两视听片段的关联关系,对于关联得分高的视听对有着一致的语义,将其保留,并对保留下来的视听对进行全局建模,获取整个视频的语义信息。

    基于双流自监督网络的语音识别方法、装置、设备及介质

    公开(公告)号:CN116863920A

    公开(公告)日:2023-10-10

    申请号:CN202310874348.2

    申请日:2023-07-17

    Abstract: 本发明提供了一种基于双流自监督网络的语音识别方法、装置、设备及介质,包括:利用编码与量化模块对目标声学特征进行编码与量化获得语音向量;利用重构预测模块对语音向量进行重构预测获得第一语音表示;同时,利用对比预测模块中的自回归模型对语音向量进行预测获得第二语音表示;利用特征融合子模块对第一语音表示与第二语音表示进行融合获得融合后语音表示;基于目标声学特征,结合第一子模型与CTC模块中的连接时序分类器对融合后语音表示进行识别获得转录文本。本发明能够关注语音详细的上下文信息及语音不同特征之间的差异信息,提高自监督学习的鲁棒性,有效结合生成式和判别式自监督学习的互补优势。

Patent Agency Ranking