-
公开(公告)号:CN114757969A
公开(公告)日:2022-07-15
申请号:CN202210363417.9
申请日:2022-04-08
Applicant: 华南理工大学 , 人工智能与数字经济广东省实验室(广州)
Abstract: 本发明公开了基于全局追踪解码的文字图像书写轨迹恢复方法,包括以下步骤:将文字图像调整为预设尺寸并进行二值化处理;构建卷积循环神经编码网络;构建全局追踪解码网络,所述的全局追踪解码网络的输入为编码特征Z,输出为预测文字书写轨迹序列;联合训练卷积循环神经编码网络和全局追踪解码网络,获得文字图像书写轨迹恢复网络模型;利用训练完成的文字图像书写轨迹恢复网络模型进行书写轨迹恢复。本发明方法在解码的过程中,设置全局追踪解码机制,在每个解码时刻,加入编码特征作为RNN解码器的输入,有助于解码器在整个轨迹序列的预测过程中都能对全局文字特征进行持续追踪,缓解轨迹序列偏移问题,有效提升文字图像书写轨迹的恢复性能。
-
公开(公告)号:CN110363074A
公开(公告)日:2019-10-22
申请号:CN201910474678.6
申请日:2019-06-03
Applicant: 华南理工大学
Abstract: 本发明公开了一种针对复杂抽象化事物的类人化识别交互方法,该方法包括以下步骤:1)采集人的语音和脸部信息;2)提取人脸部表情特征和语言情感倾向特征;3)情感状态分析;4)交互模式判定;5)交互效果反馈。该方法利用数字摄像头和麦克风获取人的脸部和语音信息,通过语音识别和人脸识别获得脸部表情特征和语言情感倾向,并通过类人思维直接分析情感状态和完成交互模式的判定。最后,再次通过步骤1)和2)获得交互反馈调整优化用于情感状态分析的网络,从而实现机器在和人交互时可以对人类特有的复杂抽象事物进行识别交互和自适应。
-
公开(公告)号:CN114463760A
公开(公告)日:2022-05-10
申请号:CN202210363354.7
申请日:2022-04-08
Applicant: 华南理工大学 , 人工智能与数字经济广东省实验室(广州)
IPC: G06V30/32 , G06V20/62 , G06V30/10 , G06V10/28 , G06V10/44 , G06V10/764 , G06V10/82 , G06K9/62 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种基于双流编码的文字图像书写轨迹恢复方法,包括以下步骤:将文字图像调整为预设尺寸并进行二值化处理;构建双流编码网络,所述的双流编码网络输入为文字图像,输出为双流融合编码特征;构建解码网络,所述的解码网络的输入为双流融合编码特征,输出为预测文字书写轨迹序列;联合训练双流编码网络和解码网络,获得文字图像书写轨迹恢复网络模型;利用训练完成的文字图像书写轨迹恢复网络模型进行书写轨迹恢复。本发明方法在编码过程中,分别提取文字在竖直和水平方向上的特征,实现对特征进行降采样、减少参数量的同时,保留必要的文字字形信息,帮助后续解码精确地反映文字的字形,有效提升文字图像书写轨迹的恢复性能。
-
公开(公告)号:CN113313127A
公开(公告)日:2021-08-27
申请号:CN202110537652.9
申请日:2021-05-18
Applicant: 华南理工大学
IPC: G06K9/46 , G06K9/42 , G06F40/30 , G06F40/126 , G06N3/04
Abstract: 本发明公开了一种文本图像识别方法、装置、计算机设备和存储介质,所述方法包括:获取原始文本图像并进行预处理,得到处理后图像;利用特征编码网络中的残差卷积模块对所述处理后图像进行特征提取,得到图像特征;利用所述特征编码网络中上下文感知模块的类递归扩张卷积部分和通道级尺度注意力部分,对图像特征进行处理,得到上下文调制特征序列;对上下文调制序列进行解码,预测得到对应的符号序列。本发明利用上下文感知模块对不同尺度的文本进行上下文调制,同时利用残差模块和上下文感知模块交错连接,实现不同语义层次的上下文信息融合,为后续解码提供更多有效信息,提高了文本识别的准确率。
-
公开(公告)号:CN108519088A
公开(公告)日:2018-09-11
申请号:CN201810177834.8
申请日:2018-03-05
Applicant: 华南理工大学
Abstract: 本发明公开了一种基于人工神经网络的可见光视觉定位方法,针对目前基于发送位置信息的LED灯具和具有到达角感应器的相机实现的室内可见光定位需要复杂的数学模型,为此,本发明通过灯具的图像感知通信,建立LED灯具图像之间的虚拟投影不变线,利用人工神经网络学习,更精确地确定出相机相对于环境坐标所在的方向信息,再凭借数学方法实现相机定位。仿真结果表明,本发明比现有定位方法具有更好的定位效果,具有广阔应用前景。
-
公开(公告)号:CN114511853A
公开(公告)日:2022-05-17
申请号:CN202210417388.X
申请日:2022-04-21
Applicant: 华南理工大学 , 人工智能与数字经济广东省实验室(广州)
Abstract: 本发明公开了一种文字图像书写轨迹恢复效果判别方法,包括:对原始文字图像进行掩膜化操作并二值化处理得到输入图像掩膜;将恢复轨迹渲染得到恢复轨迹掩膜;恢复轨迹掩膜逐步进行多次膨胀操作,得到多个膨胀掩膜;采用交并比计算方法,分别计算恢复轨迹掩膜以及多个膨胀掩膜与输入图像掩膜的IoU分数;计算出的数值最大的IoU分数作为DloU分数,所述DloU分数为最终判别结果。本发明方法设计交并比计算方法,计算输入图像掩膜和恢复轨迹掩膜的相似度,设计动态膨胀机制,将恢复轨迹掩膜和膨胀掩膜分别与输入图像掩膜计算交并比分数,使用动态交并比分数消除输入文字图像笔画宽度对字形保真程度评价的影响。
-
公开(公告)号:CN110363074B
公开(公告)日:2021-03-30
申请号:CN201910474678.6
申请日:2019-06-03
Applicant: 华南理工大学
Abstract: 本发明公开了一种针对复杂抽象化事物的类人化识别交互方法,该方法包括以下步骤:1)采集人的语音和脸部信息;2)提取人脸部表情特征和语言情感倾向特征;3)情感状态分析;4)交互模式判定;5)交互效果反馈。该方法利用数字摄像头和麦克风获取人的脸部和语音信息,通过语音识别和人脸识别获得脸部表情特征和语言情感倾向,并通过类人思维直接分析情感状态和完成交互模式的判定。最后,再次通过步骤1)和2)获得交互反馈调整优化用于情感状态分析的网络,从而实现机器在和人交互时可以对人类特有的复杂抽象事物进行识别交互和自适应。
-
公开(公告)号:CN109035198A
公开(公告)日:2018-12-18
申请号:CN201810578956.8
申请日:2018-06-07
Applicant: 华南理工大学
CPC classification number: G06T7/0002 , G06T5/002 , G06T5/20 , G06T5/50 , G06T7/13 , G06T7/187 , G06T2207/20021 , G06T2207/20024 , G06T2207/20224 , G06T2207/30252
Abstract: 本发明公开了一种基于边缘检测的室外可见光通信的LED检测方法,把LED交通灯作为发送端,交通工具上的高速摄像头作为接收端,实现交通工具和LED交通灯的通信。发送端上的LED交通灯以500赫兹的频率发送光,为识别出摄像头图像的连续帧,LED交通灯设置足够的亮度值,LED交通灯在被识别后用于通信。即为了实现通信,首要步骤为识别出发送端,随后在交通工具移动的同时,从摄像头拍摄的连续帧图像经过图像处理实现对发送端的追踪。为此,本发明公开的基于边缘检测的室外可见光通信的LED检测方法实现了在连续帧中对识别出的发送端进行追踪,具有广阔利用前景。
-
公开(公告)号:CN114511853B
公开(公告)日:2022-07-12
申请号:CN202210417388.X
申请日:2022-04-21
Applicant: 华南理工大学 , 人工智能与数字经济广东省实验室(广州)
Abstract: 本发明公开了一种文字图像书写轨迹恢复效果判别方法,包括:对原始文字图像进行掩膜化操作并二值化处理得到输入图像掩膜;将恢复轨迹渲染得到恢复轨迹掩膜;恢复轨迹掩膜逐步进行多次膨胀操作,得到多个膨胀掩膜;采用交并比计算方法,分别计算恢复轨迹掩膜以及多个膨胀掩膜与输入图像掩膜的IoU分数;计算出的数值最大的IoU分数作为DloU分数,所述DloU分数为最终判别结果。本发明方法设计交并比计算方法,计算输入图像掩膜和恢复轨迹掩膜的相似度,设计动态膨胀机制,将恢复轨迹掩膜和膨胀掩膜分别与输入图像掩膜计算交并比分数,使用动态交并比分数消除输入文字图像笔画宽度对字形保真程度评价的影响。
-
公开(公告)号:CN110320497B
公开(公告)日:2022-02-11
申请号:CN201910480104.X
申请日:2019-06-04
Applicant: 华南理工大学
Abstract: 本发明公开了一种基于VLC与IMU的粒子滤波融合定位方法,通过粒子滤波融合定位方法针对可能的观测值,对VLC和IMU所得到的定位结果进行加权修正,近似估计待定位装置的近似状态,从而实现对两种定位结果的融合,得到较为理想的定位结果。将该基于VLC与IMU的粒子滤波融合定位方法应用于可见光定位系统中,克服VLC自身技术所固有的缺陷,构建一种具备双传感器的具备较强鲁棒性的定位技术方案,可以在不借助外界信标的条件下,在一定时间段内仍保持较精确的定位,具有广阔的应用前景。
-
-
-
-
-
-
-
-
-