图像的分类识别方法及其装置
    31.
    发明公开

    公开(公告)号:CN118864983A

    公开(公告)日:2024-10-29

    申请号:CN202411068089.5

    申请日:2024-08-05

    发明人: 张超

    摘要: 本公开提供了一种图像的分类识别方法及其装置,涉及图像处理领域,尤其涉及人工智能领域。具体实现方案为:对待识别图像进行图像特征提取,得到待识别图像的图像特征,图像特征包括全局图像特征和局部图像特征;获取待识别图像的文本特征,文本特征至少包括基于图生文模型对待识别图像生成的描述文本对应的第一文本特征;对图像特征和文本特征进行特征融合,获取待识别图像的融合特征;基于融合特征对待识别图像进行图像分类识别。

    一种文本定位方法、装置及电子设备

    公开(公告)号:CN113869306B

    公开(公告)日:2024-10-29

    申请号:CN202010623533.0

    申请日:2020-06-30

    发明人: 韦涛 张宏源

    摘要: 本发明公开了一种文本定位方法、装置及电子设备,该方法包括:对待检测图像进行区域划分,获得n个图像区域,n≥2;针对每个所述图像区域,通过文本行检测模型对所述图像区域进行文本识别,若识别出所述图像区域包含文本,对所述图像区域进行文本行上下边界的关键点回归检测,获得文本行上下边界的关键点坐标;基于n个所述图像区域的文本识别结果和所述文本行上下边界的关键点坐标,获得所述待检测图像中的文本图像。上述技术方案,通过将文本行检测转换为关键点的检测,简化了检测任务,提高了检测速度和精度。

    一种银行回单的识别方法、相关装置及存储介质

    公开(公告)号:CN113469005B

    公开(公告)日:2024-10-29

    申请号:CN202110706242.2

    申请日:2021-06-24

    摘要: 本申请实施例公开了一种银行回单的识别方法,用于提高银行回单的识别效率。本申请实施例方法包括:获取待识别的银行回单图像;对银行回单图像进行识别,得到N个文本块,每个文本块包括对应的文本内容、索引和位置信息;根据N个文本块的索引和位置信息,对N个文本块进行拼接,得到目标文本块;采用自然语言处理技术对目标文本块进行识别,得到固定字段信息和收付款字段信息,并确定收付款字段信息的收付款方向。通过上述方式,在识别银行回单图像的过程中,不需要针对各个不同的银行回单格式进行定制识别模板,该识别方法可以适用于各种不同的银行回单格式,提高了银行回单的识别效率。

    一种智能路牌识别车载摄像头系统

    公开(公告)号:CN118397602B

    公开(公告)日:2024-10-25

    申请号:CN202410586500.1

    申请日:2024-05-13

    发明人: 周辉 周锋 林锋

    摘要: 本发明公开了一种智能路牌识别车载摄像头系统,包括路牌识别管理系统模块、路牌数据采集模块、路牌识别模型模块、路牌检测模块、语义分割模块、文字识别模块和路牌识别播报模块,其中:所述路牌识别模型模块,由两个卷积神经网络RetinaNet串联组成,使用对抗网络BigGAN,生成黑天路牌对抗样本,增强对黑天路牌识别;本发明针对车载摄像头识别准确率问题,通过采用RetinaNet双重网络对图像进行识别,融合特征金字塔模型,对白天和黑天进行特征处理,使用对抗网络BigGAN生成对抗黑天路牌样本数据提高黑天识别效果,采用小目标检测FSSD算法及无锚框识别策略进行路牌框位置检测,同时RetinaNet采用全卷积网络,去掉全连接层,因此识别路牌速度非常快,黑天识别路牌的精准度非常高。

    音频处理方法、装置、设备、介质和产品

    公开(公告)号:CN118824215A

    公开(公告)日:2024-10-22

    申请号:CN202310454081.1

    申请日:2023-04-18

    发明人: 邱耀

    摘要: 本申请实施例公开了一种音频处理方法、装置、设备、介质和产品,涉及人工智能技术,其中,方法包括:获取目标音频数据的频谱图,并对该频谱图进行目标检测,得到该频谱图包含的N个特征图像;该目标音频数据中的一个音符在该频谱图中表现为一个特征图像;基于该N个特征图像在该频谱图中的图像信息,确定该目标音频数据包含的N个音符的音符特征;基于该N个音符的音符特征,生成该目标音频数据的歌谱数据;该歌谱数据包含该目标音频数据的乐谱数据和歌词数据。采用本申请实施例,可以提升生成歌谱数据的效率以及准确性。