-
公开(公告)号:CN114694177B
公开(公告)日:2023-04-28
申请号:CN202210229488.X
申请日:2022-03-10
Applicant: 电子科技大学
Abstract: 本发明提供一种基于多尺度特征和属性关联挖掘的细粒度属性识别方法,自下而上提取输入图片的多尺度特征;对多尺度特征以特征金字塔形式自上而下进行特征融合得到融合不同尺度特征的四支路输出;对四支路输出分别进行属性关联性挖掘得到包含属性关联关系的特征输出;对四支路输出分别进行属性预测得到各支路属性预测值得到每个属性最终的预测输出。本发明针对人物属性分处不同的特征层次,采用多尺度特征融合的方式,提取融合多层特征信息,增强特征表征能力。人物属性间往往具有语义依赖性和空间关联性。本发明通过对属性间关联关系的挖掘,进一步提高识别算法性能,有效提升整体预测准确度。
-
公开(公告)号:CN114821766A
公开(公告)日:2022-07-29
申请号:CN202210229686.6
申请日:2022-03-10
Applicant: 电子科技大学
Abstract: 本发明针对单一数据形式下行为识别下特征提取不充分的问题,提供一种基于时空卷积和时间序列特征融合的行为识别方法,先获取视频流数据以及来自惯性传感器的运动数据,再从视频流数据提取出基于时空卷积的高层时空语义特征;同时,从运动数据流提取出基于时间序列的深层运动特征;将高层时空语义特征和深层运动特征进行融合得到融合特征,将融合特征输入多层感知器MLP映射得到输出值,输出值经Softmax完成行为识别分类。本发明基于两种特征融合的方式完成行为识别,弥补了主流算法使用单一特征缺失信息的缺点,并通过自注意力模块捕获关键时刻的动作特征,提升了网络对异常和突发行为的识别准确度。
-
公开(公告)号:CN114821558A
公开(公告)日:2022-07-29
申请号:CN202210229490.7
申请日:2022-03-10
Applicant: 电子科技大学
Abstract: 本发明提出了一种基于文本特征对齐的多方向文本检测方法,先对图像进行数据增广处理;再对数据增广后的图像通过主干网络提取多尺度特征之后使用级联的多个特征金字塔形式的增强模块来获取多尺度特征中的低级和高级语义信息并输出,再使用特征融合模块对多个特征金字塔形式的增强模块的输出进行自下而上的融合得到融合特征,使用文本特征对齐模块对融合的特征进行加强得到增强特征;最后对增强特征分别进行文本分类与位置预测从而输出预测文本框。本发明能够高效、准确地提取文本特征,定位文本位置;具有快速的检测速度和较高的检测精度。
-
公开(公告)号:CN114694177A
公开(公告)日:2022-07-01
申请号:CN202210229488.X
申请日:2022-03-10
Applicant: 电子科技大学
Abstract: 本发明提供一种基于多尺度特征和属性关联挖掘的细粒度属性识别方法,自下而上提取输入图片的多尺度特征;对多尺度特征以特征金字塔形式自上而下进行特征融合得到融合不同尺度特征的四支路输出;对四支路输出分别进行属性关联性挖掘得到包含属性关联关系的特征输出;对四支路输出分别进行属性预测得到各支路属性预测值得到每个属性最终的预测输出。本发明针对人物属性分处不同的特征层次,采用多尺度特征融合的方式,提取融合多层特征信息,增强特征表征能力。人物属性间往往具有语义依赖性和空间关联性。本发明通过对属性间关联关系的挖掘,进一步提高识别算法性能,有效提升整体预测准确度。
-
公开(公告)号:CN116797627A
公开(公告)日:2023-09-22
申请号:CN202210229687.0
申请日:2022-03-10
Applicant: 电子科技大学
IPC: G06T7/246 , G06T5/50 , G06N3/0464 , G06N3/08
Abstract: 本发明提供一种基于融合运动传感信息的多模态视频描述生成方法,对输入的视频流和来自运动传感器的运动数据流进行并行特征提取处理;对视频流逐帧提取图像特征;对运动数据流采样并进行提取运动特征,之后再对运动特征进行动词预测得到包含关键动词信息的预测向量;对单位采样时间内的得到的所有图像特征以及该单位采样对应的动词预测向量进行拼接得到融合特征;将融合特征输入编解码结构中逐个生成词汇组成视频描述语句。在不修改主干网络结构的同时使网络更加关注动词的生成;通过引入额外的运动传感器数据,使运动模态和视觉模态相融合,使网络挖掘到更多有效信息,在增加少量的运算与存储成本提升文字描述生成的精度。
-
-
-
-