一种基于语义增强与图推理的场景文本识别方法

    公开(公告)号:CN116052154B

    公开(公告)日:2023-06-16

    申请号:CN202310341392.7

    申请日:2023-04-03

    摘要: 本申请公开一种基于语义增强与图推理的场景文本识别方法,涉及机器视觉与自然语言技术领域,包括视觉识别分支和迭代修正分支;视觉识别分支由卷积网络提取场景文本的视觉特征,对视觉特征进行并行编码解码;迭代修正分支通过设置语义增强模块、融合门和推理模块对当前识别结果进行修正,其中语义增强模块利用文本中字符上下文关系增强文本语义特征,提升识别精度;融合门通过融合文本语义特征与识别模块的文本视觉特征,综合考虑视觉与语义信息;图推理模块在文本字符之间建立关联关系,根据关联关系进行推理,对特征不明显的文本字符进行修正,进一步提升对场景文本的识别精度。本发明提高了网络对于场景文本的识别精度。

    一种基于语义增强与图推理的场景文本识别方法

    公开(公告)号:CN116052154A

    公开(公告)日:2023-05-02

    申请号:CN202310341392.7

    申请日:2023-04-03

    摘要: 本申请公开一种基于语义增强与图推理的场景文本识别方法,涉及机器视觉与自然语言技术领域,包括视觉识别分支和迭代修正分支;视觉识别分支由卷积网络提取场景文本的视觉特征,对视觉特征进行并行编码解码;迭代修正分支通过设置语义增强模块、融合门和推理模块对当前识别结果进行修正,其中语义增强模块利用文本中字符上下文关系增强文本语义特征,提升识别精度;融合门通过融合文本语义特征与识别模块的文本视觉特征,综合考虑视觉与语义信息;图推理模块在文本字符之间建立关联关系,根据关联关系进行推理,对特征不明显的文本字符进行修正,进一步提升对场景文本的识别精度。本发明提高了网络对于场景文本的识别精度。

    一种基于多尺度上下文感知的目标检测方法

    公开(公告)号:CN113743521A

    公开(公告)日:2021-12-03

    申请号:CN202111061082.7

    申请日:2021-09-10

    IPC分类号: G06K9/62 G06N3/04 G06N3/08

    摘要: 本发明公开了一种基于多尺度上下文感知的目标检测方法,其步骤包括:1)提取图像的多个尺度特征;2)通过空洞残差块对该多尺度特征中的顶层特征进行增强,得到具有高层次特征的顶层特征;3)对相邻层次的特征进行融合,生成金字塔特征;4)对金字塔特征进行聚合,获得特征Xm;5)通过依赖增强模块进一步增强特征Xm,生成增强后的特征Xo;6)将特征Xo分别通过上采样或者下采样的方式,与金字塔特征进行匹配相加;7)将步骤6)所得特征输入到候选区域生成网络中生成候选框,并提取候选框的特征;8)将候选框的特征输入到头部检测模块进行预测,然后通过非极大值抑制方法对候选框的检测结果进行过滤,得到物品的类别和位置信息。

    一种基于选择性密集注意力的违禁物品检测方法

    公开(公告)号:CN113723553A

    公开(公告)日:2021-11-30

    申请号:CN202111043125.9

    申请日:2021-09-07

    IPC分类号: G06K9/62 G06N3/04 G06N3/08

    摘要: 本发明公开了一种基于选择性密集注意力的违禁物品检测方法。本方法为:1)将待检测图像输入骨干网络中提取多尺度特征;所述多尺度特征包括高层语义特征和低层细节特征;2)选择性密集注意力网络通过自适应的学习不同尺度特征的权重,然后将高层语义特征与低层细节特征进行加权相加,得到融合后的特征图;3)对于融合后的特征图中的每一个点,生成不同尺度和宽高比的检测框;4)提取每一所述检测框的特征;5)将提取到的检测框特征输入到头部检测模块中进行分类和偏移值的预测;然后根据偏移值修正对应检测框的位置;然后通过非极大值抑制方法获得所述检测框中违禁物品的类别和位置。本方法能够显著提升违禁物品的检测效率。

    一种基于Transformer的细粒度图像分类方法

    公开(公告)号:CN114676776B

    公开(公告)日:2024-11-01

    申请号:CN202210305985.3

    申请日:2022-03-25

    摘要: 本发明公开了一种基于Transformer的细粒度图像分类方法。本方法为:1)将样本图像输入线性映射和编码器层中提取多层令牌特征;2)通过令牌特征选择模块作用于编码器提取的多层令牌特征;3)通过语义部件生成模块作用于第一层令牌特征,获取包含辨识性视觉图案的局部区域,利用局部分支学习该区域内对象的细节信息;4)将两个分支的分类令牌交换,编码器作用于交换后的分类令牌与当前分支的图像块令牌,融合全局分支提取的图像完整信息与局部分支获取的关键区域的细节信息;5)通过中心损失函数约束细粒度对象类内特征距离,间接地增大类间特征距离;6)连接两个分支的分类令牌,输入到分类器,从而实现对输入图像的分类。

    一种基于Transformer的细粒度图像分类方法

    公开(公告)号:CN114676776A

    公开(公告)日:2022-06-28

    申请号:CN202210305985.3

    申请日:2022-03-25

    IPC分类号: G06K9/62 G06V10/764 G06V10/80

    摘要: 本发明公开了一种基于Transformer的细粒度图像分类方法。本方法为:1)将样本图像输入线性映射和编码器层中提取多层令牌特征;2)通过令牌特征选择模块作用于编码器提取的多层令牌特征;3)通过语义部件生成模块作用于第一层令牌特征,获取包含辨识性视觉图案的局部区域,利用局部分支学习该区域内对象的细节信息;4)将两个分支的分类令牌交换,编码器作用于交换后的分类令牌与当前分支的图像块令牌,融合全局分支提取的图像完整信息与局部分支获取的关键区域的细节信息;5)通过中心损失函数约束细粒度对象类内特征距离,间接地增大类间特征距离;6)连接两个分支的分类令牌,输入到分类器,从而实现对输入图像的分类。

    一种基于孪生网络的自监督学习细粒度图像分类方法

    公开(公告)号:CN114676777B

    公开(公告)日:2024-11-01

    申请号:CN202210306415.6

    申请日:2022-03-25

    摘要: 本发明公开了一种基于孪生网络的自监督学习细粒度图像分类方法。本发明首先利用注意力编码器提取图像的深度卷积特征,获取蕴含语义信息的注意力图并通过双线性池化方式编码图像特征;其次从原始图像上定位出注意力图上高响应值所在的显著区域,对显著区域进行裁切和擦除操作,从而形成不同视角的视图,以自监督的方式学习视角不变性特征;最后联合中心损失函数以及一致性损失函数,显示地约束不同视角特征,保持它们的类内一致性。本发明方法使得网络获得显著的性能增益,可以在细粒度图像分类的基线上显著提升分类准确度。