-
公开(公告)号:CN111553921A
公开(公告)日:2020-08-18
申请号:CN202010103230.6
申请日:2020-02-19
申请人: 中山大学 , 广州智慧城市发展研究院
摘要: 本发明涉及计算机视觉领域,公开了一种基于通道信息共享残差模块的实时语义分割方法,其包括步骤:将特征图X通过二维通道信息共享残差模块经通道分裂进行分组操作,分成X1和X2两组;将分组X1连续经过两个不带空洞卷积的3*1和1*3的卷积核进行卷积操作,再经过带空洞卷积的3*1和1*3卷积核进行卷积操作,得到输出Y1;将输出Y1和输入X2进行拼接,再进行一系列带空洞卷积和不带空洞卷积的3*1和1*3的卷积核进行卷积操作,输出Y2;拼接Y1和Y2后,将各通道洗牌打乱;将实时语义分割网络中的编码器学习到的语义特征映射到高分辨率的特征图上,获得密集预测。该方法可对输入的特征图进行实时精确地分割,有效降低了整个网络的参数量,提高了计算效率,提高了特征图的实时分割精度。
-
公开(公告)号:CN111339886A
公开(公告)日:2020-06-26
申请号:CN202010103214.7
申请日:2020-02-19
申请人: 中山大学 , 广州智慧城市发展研究院
摘要: 本发明涉及计算机视觉识别领域,公开了一种基于相似性损失的行为识别方法,涉及计算机视觉识别领域。该行为识别方法包括步骤:将视频片段输入前馈网络,得到特征图以及对应的分类概率;计算任意两个配对样本的预测结果,根据预测结果计算分布之间的成对距离;根据成对距离和交叉熵损失计算整个的相似性损失。本发明的方法提出了一种新的相似性损失用来指导整个网络的学习目标,相似性损失可以简单的集成在任意一个基础网络之中,在没有额外引入参数和没有额外开销的前提下,该方法在数据集上取得了最优效果,验证了相似性损失的有效性。
-
公开(公告)号:CN111325149B
公开(公告)日:2023-05-26
申请号:CN202010105280.8
申请日:2020-02-20
申请人: 中山大学 , 广州智慧城市发展研究院
IPC分类号: G06V20/40 , G06V40/20 , G06V10/77 , G06V10/764 , G06V10/82 , G06N3/0464 , G06N3/049
摘要: 本发明涉及计算机视觉领域,公开了一种基于投票的时序关联模型的视频动作识别方法,其包括步骤:S1、对卷积特征图进行空间池化;S2、使用大小为1的卷积核对执行了空间池化后的卷积特征图进行通道压缩;S3、使用1维的时域卷积层的三路分支对经过通道压缩后输出的卷积特征图进行不同膨胀率的一维时间卷积运算;S4、经过时序池化,将空间池化后的卷积特征图降维为特征向量;S5、将三路分支的预测结果分别相加,作为最后的分类结果。本发明的方法在对特征图进行特征提取时,可以捕获时间信息,而且在训练过程中能够快速收敛,同时能够在网络的任意深度集成,在较高的提升了模型表征能力的基础上,还很好地控制了计算开销和模型复杂度。
-
公开(公告)号:CN111339886B
公开(公告)日:2024-01-09
申请号:CN202010103214.7
申请日:2020-02-19
申请人: 中山大学 , 广州智慧城市发展研究院
IPC分类号: G06V40/20 , G06V20/40 , G06V10/74 , G06V10/82 , G06N3/0499 , G06N3/084 , G06N3/0985
摘要: 本发明涉及计算机视觉识别领域,公开了一种基于相似性损失的行为识别方法,涉及计算机视觉识别领域。该行为识别方法包括步骤:将视频片段输入前馈网络,得到特征图以及对应的分类概率;计算任意两个配对样本的预测结果,根据预测结果计算分布之间的成对距离;根据成对距离和交叉熵损失计算整个的相似性损失。本发明的方法提出了一种新的相似性损失用来指导整个网络的学习目标,相似性损失可以简单的集成在任意一个基础网络之中,在没有额外引入参数和没有额外开销的前提下,该方法在数据集上取得了最优效果,验证了相似性损失的有效性。
-
公开(公告)号:CN111353394B
公开(公告)日:2023-05-23
申请号:CN202010105277.6
申请日:2020-02-20
申请人: 中山大学 , 广州智慧城市发展研究院
IPC分类号: G06V20/40 , G06V40/20 , G06V10/774 , G06V10/82 , G06N3/0464 , G06N3/08
摘要: 本发明公开了一种基于三维交替更新网络的视频行为识别方法,涉及计算机视觉领域。该视频行为识别方法包括步骤:S1、将视频分为连续的帧,对数据集进行预处理;S2、对参与训练的视频片段执行数据增强操作;S3、将执行数据增强操作后的训练数据放入3D CliqueNet架构中进行训练,获得网络的预训练模型;S4、输入测试数据得到测试数据集的行为分类结果,对经过训练的网络进行测试。本发明的方法使用3D CliquNet来提取时空信息,该网络能最大化提升深度网络中的信息流的流动,可以减少训练困难以及更有效的利用参数。通过在Kinetics数据集上进行预训练,该方法具有较高的行为识别表现以及对于复杂环境具有更好的鲁棒性。
-
公开(公告)号:CN111325145B
公开(公告)日:2023-04-25
申请号:CN202010102863.5
申请日:2020-02-19
申请人: 中山大学 , 广州智慧城市发展研究院
IPC分类号: G06V20/40 , G06V10/77 , G06V10/80 , G06V10/82 , G06N3/0464
摘要: 本发明涉及计算机视觉领域,公开了一种基于结合时域通道相关性块的行为识别方法,通过空间全局平均池化操作对输入的初始特征图进行压缩,获得时域通道描述算子;将时域通道描述算子输入注意力模块获得时域通道全局非线性依赖;将注意力模块输出的张量赋值为经过特征选择后每个通道重要性的权重,通过残差连接将输入的初始特征图与注意力模块输出的张量逐通道相乘得到通道加权之后的特征图。本发明通过网络层有效的捕获时域‑通道之间的相关信息,获得一个逐通道描述算子,通过乘法逐通道加权到之前的特征上,完成在通道维度上对原始特征的重新加权,通过将网络的计算资源更多的集中到对输出结果比较重要的特征通道中去。
-
公开(公告)号:CN111507984A
公开(公告)日:2020-08-07
申请号:CN202010089754.4
申请日:2020-02-12
申请人: 杰创智能科技股份有限公司 , 广州智慧城市发展研究院 , 中山大学
摘要: 本发明公开了一种基于多接受野的交替更新网络的场景分割方法,包括以下步骤:S1、将输入图像通过一个预训练好的卷积神经网络,进行特征图的提取;S2、通过预训练好的集合网络空洞金字塔模块,得到包含高层语义信息的特征图;S3、在步骤S2中得到的特征图的基础上对逐个像素计算分类的损失,获得分割热图。本发明的方法使用空洞金字塔池化网络进行场景的语义分割,集合网络空洞金字塔模块一方面能对特征图进行充分利用,改善网络中信息的流动,减少模型参数,从而达到压缩模型的效果,另一方面又结合扩张卷积的方法,从而增加了卷积核的接受野尺寸,以实现对场景图里面不同大小目标的分割,具有鲁棒性强、计算效率高等特性。
-
公开(公告)号:CN111291767A
公开(公告)日:2020-06-16
申请号:CN202010089111.X
申请日:2020-02-12
申请人: 中山大学 , 广州智慧城市发展研究院
摘要: 本发明公开了一种细粒度识别方法、终端设备及计算机可读存储介质,涉及计算机视觉技术领域。该方法包括步骤:目标检测,对输入图片进行卷积,得到特征图,标框出目标所在位置,使用目标掩膜对检测出的目标框周围的特征进行相应的反转;局部特征提取,对特征图进行卷积和全局最大池化,得到图片显著点,提取显著点的特征;全局特征提取,将目标掩膜后得到的结果与目标检测步骤得到的特征图进行点乘,得到新的特征图,并把新特征图作为残差网络的输入,经过卷积层逐步提取图片的全局特征;特征融合,将得到的局部特征和全局特征按权重进行融合。本发明的方法基于背景分离和显著点检测,具有鲁棒性强、计算效率高的优点,可进行精确的细粒度识别。
-
公开(公告)号:CN111353394A
公开(公告)日:2020-06-30
申请号:CN202010105277.6
申请日:2020-02-20
申请人: 中山大学 , 广州智慧城市发展研究院
摘要: 本发明公开了一种基于三维交替更新网络的视频行为识别方法,涉及计算机视觉领域。该视频行为识别方法包括步骤:S1、将视频分为连续的帧,对数据集进行预处理;S2、对参与训练的视频片段执行数据增强操作;S3、将执行数据增强操作后的训练数据放入3D CliqueNet架构中进行训练,获得网络的预训练模型;S4、输入测试数据得到测试数据集的行为分类结果,对经过训练的网络进行测试。本发明的方法使用3D CliquNet来提取时空信息,该网络能最大化提升深度网络中的信息流的流动,可以减少训练困难以及更有效的利用参数。通过在Kinetics数据集上进行预训练,该方法具有较高的行为识别表现以及对于复杂环境具有更好的鲁棒性。
-
公开(公告)号:CN111325149A
公开(公告)日:2020-06-23
申请号:CN202010105280.8
申请日:2020-02-20
申请人: 中山大学 , 广州智慧城市发展研究院
摘要: 本发明涉及计算机视觉领域,公开了一种基于投票的时序关联模型的视频动作识别方法,其包括步骤:S1、对卷积特征图进行空间池化;S2、使用大小为1的卷积核对执行了空间池化后的卷积特征图进行通道压缩;S3、使用1维的时域卷积层的三路分支对经过通道压缩后输出的卷积特征图进行不同膨胀率的一维时间卷积运算;S4、经过时序池化,将空间池化后的卷积特征图降维为特征向量;S5、将三路分支的预测结果分别相加,作为最后的分类结果。本发明的方法在对特征图进行特征提取时,可以捕获时间信息,而且在训练过程中能够快速收敛,同时能够在网络的任意深度集成,在较高的提升了模型表征能力的基础上,还很好地控制了计算开销和模型复杂度。
-
-
-
-
-
-
-
-
-