-
公开(公告)号:CN114707467B
公开(公告)日:2024-06-14
申请号:CN202210269579.6
申请日:2022-03-18
申请人: 浙江大学
IPC分类号: G06F40/126 , G06F40/242 , G06F40/284
摘要: 一种基于自注意力机制的自动化拼音转汉字方法,包括:预处理拼音序列;利用嵌入层获得输入拼音序列的嵌入表示矩阵;在嵌入表示添加位置编码,获得拼音序列的输入表示矩阵;利用拼音序列的输入表示矩阵和自注意力机制获得拼音序列的自注意力输出矩阵;利用全连接层将自注意力输出矩阵变换为输出矩阵;解析输出矩阵,获得汉字序列结果。该发明可在无人工干预的前提下,自动化的将拼音序列转成汉字序列。
-
-
公开(公告)号:CN114925868A
公开(公告)日:2022-08-19
申请号:CN202210519531.6
申请日:2022-05-12
申请人: 浙江大学
IPC分类号: G06Q10/02 , G06Q50/30 , G06T7/10 , G06T7/246 , G06T7/277 , G06T7/62 , G06T7/50 , G06T7/80 , G06V10/82 , G06V20/62 , H04L51/046 , H04L67/02 , H04L67/12 , H04L69/16
摘要: 本发明公开了一种基于计算机视觉技术的助盲打车方法,通过websocket协议和微信小程序获取当前用户路况;利用计算机视觉技术得到车辆坐标进行车辆跟踪并为每辆车标定唯一ID;利用计算机视觉技术获取一定帧数车牌坐标计算车辆高度;通过车辆跟踪框和单目相机相似三角形原理得出人与车辆的距离、车辆的行驶速度;根据车辆的行驶速度筛选出需要进行车牌检测、车牌识别的车辆跟踪框;通过OCR技术得到车牌的坐标以及车牌号找到目标车辆;通过websocket协议将目标车辆ID对应的车辆信息反馈给用户。本发明解决了现有技术实时性不足、车牌会被遮挡、新能源车牌识别不准以及助盲打车软件空缺的问题。
-
公开(公告)号:CN114821565A
公开(公告)日:2022-07-29
申请号:CN202210519524.6
申请日:2022-05-12
申请人: 浙江大学
摘要: 本发明公开了一种基于目标检测和OCR技术的地铁标识识别方法,通过计算机视觉技术与目标检测技术,定位地铁场景图中的地铁导引标识的坐标;利用各标识的坐标,使用目标检测与分类技术,提取地铁标识中的图像信息;使用文本检测和文本识别技术,提取地铁标识中的文本信息;计算两种信息的联合置信度,筛选有效信息并输出。本发明为地铁标识识别领域提供了相关技术,可用于为视障人群提供导航信息,帮助其安全、高效地完成地铁行程,同时也为设计地铁导航系统的人员提供更科学的设计建议。
-
公开(公告)号:CN118628962A
公开(公告)日:2024-09-10
申请号:CN202410900891.X
申请日:2024-07-05
申请人: 浙江大学
IPC分类号: G06V20/40 , G06V10/26 , G06V10/774 , G06N3/0464 , G06N3/08
摘要: 本发明公开了一种可解释性的增强视频目标分割精度方法和装置,该方法基于可解释性梯度激活图对含卷积层簇的深度学习网络面向视频目标分割任务时,实现该深度学习网络分割精度的提升。包括(1)卷积簇深度学习网络训练原始视频数据集;(2)根据本发明所设计3D可解释性激活张量筛选视频帧弱特征像素;(3)根据3D可解释性激活张量计算出目标在单个视频中的运动范围制作新视频集;(4)卷积簇深度学习网络重新训练新视频集,增强目标在运动范围中的弱视频帧像素特征。(5)训练收敛后,进行实地应用。本发明具有高分割精度,计算量少特点。其中弱视频帧像素可提供面向视频目标分割任务的深度学习网络的改进方向,并得出该深度学习网络的可解释性的可提升空间。
-
公开(公告)号:CN117853879A
公开(公告)日:2024-04-09
申请号:CN202410025476.4
申请日:2024-01-08
申请人: 浙江大学
IPC分类号: G06V10/94 , G06V10/44 , G06V10/774 , G06V10/82 , G06N3/0464 , G06N3/08 , G06F3/0481 , G06F3/0484
摘要: 一种基于计算机视觉的移动应用浮窗无障碍可操作性检测方法,首先接收用户输入的移动应用页面根节点信息,并遍历目标应用页面以获取截图。随后,对页面图片进行二值化处理,并使用YOLOv5网络训练目标检测模型以进行浮窗轮廓定位,将结果返回给自动化测试工具APPIUM检测关闭按钮,并采用视觉方法纠错。最终,判断浮窗可操作性是否合规。通过该方法的实施,可以有效判断移动应用中浮窗的可操作性。本发明的应用领域主要包括信息无障碍技术领域,尤其适用于移动应用的界面交互优化,符合无障碍标准。
-
公开(公告)号:CN117853849A
公开(公告)日:2024-04-09
申请号:CN202410027915.5
申请日:2024-01-09
申请人: 浙江大学
IPC分类号: G06V10/776 , G06V10/774 , G06V10/25 , G06V10/30 , G06V10/44 , G06V10/82 , G06T5/92 , G06N3/0464 , G06N3/08
摘要: 本发明公开一种基于Yolov5的毛笔笔尖检测方法,包括(1)收集不同类型毛笔的图像数据及对这些数据进行预处理;(2)对需要标注的数据集进行标注,生成训练需要的数据集;(3)使用标注好的数据集对Yolov5模型进行训练;(4)对训练好的模型进行优化和验证;(5)将优化好的模型部署到实际情况中进行应用。本发明具有快速检测、高精度、适应不同书写状态和光照条件的优势,可用于书法教学软件、智能书写辅助装置等产品,有望提升学习者的书写技艺和规律把握,具备良好的商业化前景。
-
-
公开(公告)号:CN118918594A
公开(公告)日:2024-11-08
申请号:CN202410905664.6
申请日:2024-07-08
申请人: 浙江大学
摘要: 本发明公开了一种矩阵式字符关键点检测方法和装置,该方法基于监督学习训练若干关键点簇,再通过无监督聚类得到字符各关键点的中心坐标,包括:(1)将OCR字符图映射至固定规格的像素矩阵;(2)设定阈值参数二值化该像素矩阵得到字符像素图;(3)标注该字符像素图中的笔画起点、笔画终点、笔画交叉点处的若干像素,并记录簇数量;(4)用深度学习神经网络学习该像素矩阵的若干簇关键点;(5)再用无监督聚类算法得到各簇关键点中心。本发明具有高准度,低延迟,鲁棒性强特点,可用于常规字符型盲文板、辅助盲人跳过学习盲文直接学习理解常规字符等产品功能应用,具有较好的商业化前景。
-
公开(公告)号:CN117710999A
公开(公告)日:2024-03-15
申请号:CN202410028111.7
申请日:2024-01-08
申请人: 浙江大学
IPC分类号: G06V30/412 , G06V30/414 , G06V30/14 , G06V30/148 , G06V10/82 , G06N3/0464 , G06N3/08
摘要: 本发明公开了一种基于深度学习的电商表格图像识别方法和装置,其方法包括:对输入的电商商品详情页图像进行表格区域检测,得到其中表格区域的矩形框坐标;根据表格区域的矩形框坐标裁剪出表格内容图像;对表格内容图像进行表格结构识别,得到各个单元格区域的矩形框坐标和行列位置信息;采用文本OCR模型获取表格内容图像内文本行区域的矩形框坐标和对应的文字信息;根据文本行区域矩形框和单元格区域矩形框之间的交并比匹配各单元格所包含的文字信息,得到电商表格图像的识别结果。本发明具备较好的表格识别准确性,且普适性强,可以用于复杂电商表格图像识别场景。
-
-
-
-
-
-
-
-
-