-
公开(公告)号:CN110414498A
公开(公告)日:2019-11-05
申请号:CN201910517855.4
申请日:2019-06-14
Applicant: 华南理工大学
Abstract: 本发明公开一种基于交叉注意力机制的自然场景文本识别方法,包括数据获取:下载自然场景下的样本图片,并对所述图片使用公开的代码合成训练集;数据处理:对所有训练样本图片的大小进行拉伸操作,处理后样本图片的大小为32*100,高宽比例与原图保持一致,不足的部分使用黑边填充;标签制作:采用有监督的方法来训练识别模型,所以每张行文本图片都有对应的文本信息;训练网络:把准备好的训练图片数据及标签输入到交叉注意力网络中训练,交叉注意力网络由垂直注意力网络和水平注意力网络组成;输入测试数据到已训练网络中,最后得到识别结果和预测每个字符的置信度。本发明识别准确率高、鲁棒性强、针对形状不规则文本有很好的识别性能。
-
公开(公告)号:CN110414498B
公开(公告)日:2023-07-11
申请号:CN201910517855.4
申请日:2019-06-14
Applicant: 华南理工大学
IPC: G06V20/62 , G06V30/14 , G06V30/18 , G06V30/19 , G06V10/82 , G06N3/0442 , G06N3/0464 , G06N3/0455 , G06N3/047 , G06N3/048 , G06N3/084 , G06N3/09
Abstract: 本发明公开一种基于交叉注意力机制的自然场景文本识别方法,包括数据获取:下载自然场景下的样本图片,并对所述图片使用公开的代码合成训练集;数据处理:对所有训练样本图片的大小进行拉伸操作,处理后样本图片的大小为32*100,高宽比例与原图保持一致,不足的部分使用黑边填充;标签制作:采用有监督的方法来训练识别模型,所以每张行文本图片都有对应的文本信息;训练网络:把准备好的训练图片数据及标签输入到交叉注意力网络中训练,交叉注意力网络由垂直注意力网络和水平注意力网络组成;输入测试数据到已训练网络中,最后得到识别结果和预测每个字符的置信度。本发明识别准确率高、鲁棒性强、针对形状不规则文本有很好的识别性能。
-
公开(公告)号:CN113723423A
公开(公告)日:2021-11-30
申请号:CN202111039925.3
申请日:2021-09-06
Applicant: 华南理工大学
Abstract: 本发明公开了一种基于渐进矫正机制的场景文本识别方法,包括:采集场景文本图像,将所述场景文本图像进行渐进式矫正,获得目标文本图像,基于所述目标文本图像进行文本识别,获得识别结果。本发明通过采用一种渐进的矫正机制将不规则文本矫正为规则文本,并将其准确识别,能够消除拍摄角度带来的透视变形和字符的不规则排列带来的弯曲性等形变,同时剔除或抑制复杂背景带来的干扰,解决了包含不规则文本的场景识别问题,大大提高了识别系统对场景文本的鲁棒性,从而进一步提升了识别效果。
-
公开(公告)号:CN108875739A
公开(公告)日:2018-11-23
申请号:CN201810608757.7
申请日:2018-06-13
Applicant: 深圳市云识科技有限公司 , 华南理工大学
Abstract: 本发明公开了模式识别与人工智能技术领域中的一种数显仪表读数的精确检测方法,包括(1)数据获取:采用摄像设备拍摄包含读数区域的仪表图像;(2)数据处理:对仪表读数值进行人工标注,并进行仪表图像的随机旋转、拉伸以及平移变换;(3)深度网络模型构建及训练:将仪表图像和相应标注数据输入到深度网络模型进行训练;(4)仪表读数检测:输入仪表图像,系统返回规范的仪表读数图像。本发明克服现有仪表读数提取方法的不足,充分利用深度网络模型的参数学习能力,基于深度网络模型的对抗式学习能力和反传残差的物理意义,通过学习数据样本的分布,对数显仪表读数进行精确检测,具有实时性强、准确率高等特点,具有较好的实用价值。
-
公开(公告)号:CN108830271A
公开(公告)日:2018-11-16
申请号:CN201810607174.2
申请日:2018-06-13
Applicant: 深圳市云识科技有限公司 , 华南理工大学
Abstract: 本发明公开了模式识别与人工智能技术领域中的一种基于卷积神经网络的数显仪表读数识别方法,包括数据获取、数据处理、深度网络模型构建及训练、仪表读数识别等步骤。本发明通过基于大数据仪表图像的学习训练过程,实现一种高精度的数显仪表读数自动识别方法,具有识别准确率高、实时性强等特点,具有较好的实用价值。
-
公开(公告)号:CN110378334B
公开(公告)日:2023-04-18
申请号:CN201910516931.X
申请日:2019-06-14
Applicant: 华南理工大学
IPC: G06V20/62 , G06V10/764 , G06V10/82 , G06N3/0442 , G06N3/0464 , G06N3/08
Abstract: 本发明公开了一种基于二维特征注意力机制的自然场景文本识别方法,包括如下步骤:1数据获取:使用公开的代码合成用以训练的行文本图片,按形状划分为规则训练集和不规则训练集,并从网上下载真实拍摄的文本图片作为测试数据;2数据处理:对图片的大小进行拉伸操作,处理后图片的尺寸为32*104;3标签制作:采用有监督的方法来训练识别模型,每张行文本图片都有对应的文本内容;4训练网络:用训练集中的数据训练识别网络;5测试网络:输入测试数据到已训练网络中获取行文本图片的预测结果。本发明利用注意力网络实现了从图片的二维特征中解码出字符,识别准确率在公开的数据集上达到了较高的水平,具有极高的实用性和应用价值。
-
公开(公告)号:CN205883210U
公开(公告)日:2017-01-11
申请号:CN201620714303.4
申请日:2016-07-06
Applicant: 华南理工大学
Abstract: 本实用新型涉及一种信号发射装置、通信装置及信号处理装置,其中,信号发射装置包括脉冲产生电路、调制电路和信号选择电路;所述脉冲产生电路的输入端连接到时钟发生器,所述脉冲产生电路的输出端连接至所述调制电路的输入端,所述调制电路的双路输出端连接至所述信号选择电路的输入端,所述信号选择电路的控制端连接到信号发生装置,所述信号选择电路的输出端连接到信号接收装置。上述信号发射装置、通信装置及信号处理装置功耗低、复杂度低。
-
-
-
-
-
-