一种基于目标检测和OCR技术的地铁标识识别方法

    公开(公告)号:CN114821565A

    公开(公告)日:2022-07-29

    申请号:CN202210519524.6

    申请日:2022-05-12

    申请人: 浙江大学

    摘要: 本发明公开了一种基于目标检测和OCR技术的地铁标识识别方法,通过计算机视觉技术与目标检测技术,定位地铁场景图中的地铁导引标识的坐标;利用各标识的坐标,使用目标检测与分类技术,提取地铁标识中的图像信息;使用文本检测和文本识别技术,提取地铁标识中的文本信息;计算两种信息的联合置信度,筛选有效信息并输出。本发明为地铁标识识别领域提供了相关技术,可用于为视障人群提供导航信息,帮助其安全、高效地完成地铁行程,同时也为设计地铁导航系统的人员提供更科学的设计建议。

    一种可解释性的增强视频目标分割精度方法和装置

    公开(公告)号:CN118628962A

    公开(公告)日:2024-09-10

    申请号:CN202410900891.X

    申请日:2024-07-05

    申请人: 浙江大学

    摘要: 本发明公开了一种可解释性的增强视频目标分割精度方法和装置,该方法基于可解释性梯度激活图对含卷积层簇的深度学习网络面向视频目标分割任务时,实现该深度学习网络分割精度的提升。包括(1)卷积簇深度学习网络训练原始视频数据集;(2)根据本发明所设计3D可解释性激活张量筛选视频帧弱特征像素;(3)根据3D可解释性激活张量计算出目标在单个视频中的运动范围制作新视频集;(4)卷积簇深度学习网络重新训练新视频集,增强目标在运动范围中的弱视频帧像素特征。(5)训练收敛后,进行实地应用。本发明具有高分割精度,计算量少特点。其中弱视频帧像素可提供面向视频目标分割任务的深度学习网络的改进方向,并得出该深度学习网络的可解释性的可提升空间。

    一种矩阵式字符关键点检测方法和装置

    公开(公告)号:CN118918594A

    公开(公告)日:2024-11-08

    申请号:CN202410905664.6

    申请日:2024-07-08

    申请人: 浙江大学

    IPC分类号: G06V30/19 G06V10/82

    摘要: 本发明公开了一种矩阵式字符关键点检测方法和装置,该方法基于监督学习训练若干关键点簇,再通过无监督聚类得到字符各关键点的中心坐标,包括:(1)将OCR字符图映射至固定规格的像素矩阵;(2)设定阈值参数二值化该像素矩阵得到字符像素图;(3)标注该字符像素图中的笔画起点、笔画终点、笔画交叉点处的若干像素,并记录簇数量;(4)用深度学习神经网络学习该像素矩阵的若干簇关键点;(5)再用无监督聚类算法得到各簇关键点中心。本发明具有高准度,低延迟,鲁棒性强特点,可用于常规字符型盲文板、辅助盲人跳过学习盲文直接学习理解常规字符等产品功能应用,具有较好的商业化前景。

    一种基于深度学习的电商表格图像识别方法和装置

    公开(公告)号:CN117710999A

    公开(公告)日:2024-03-15

    申请号:CN202410028111.7

    申请日:2024-01-08

    申请人: 浙江大学

    摘要: 本发明公开了一种基于深度学习的电商表格图像识别方法和装置,其方法包括:对输入的电商商品详情页图像进行表格区域检测,得到其中表格区域的矩形框坐标;根据表格区域的矩形框坐标裁剪出表格内容图像;对表格内容图像进行表格结构识别,得到各个单元格区域的矩形框坐标和行列位置信息;采用文本OCR模型获取表格内容图像内文本行区域的矩形框坐标和对应的文字信息;根据文本行区域矩形框和单元格区域矩形框之间的交并比匹配各单元格所包含的文字信息,得到电商表格图像的识别结果。本发明具备较好的表格识别准确性,且普适性强,可以用于复杂电商表格图像识别场景。