-
公开(公告)号:CN114463760B
公开(公告)日:2022-06-28
申请号:CN202210363354.7
申请日:2022-04-08
Applicant: 华南理工大学 , 人工智能与数字经济广东省实验室(广州)
IPC: G06V30/32 , G06V20/62 , G06V30/10 , G06V10/28 , G06V10/44 , G06V10/764 , G06V10/82 , G06K9/62 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种基于双流编码的文字图像书写轨迹恢复方法,包括以下步骤:将文字图像调整为预设尺寸并进行二值化处理;构建双流编码网络,所述的双流编码网络输入为文字图像,输出为双流融合编码特征;构建解码网络,所述的解码网络的输入为双流融合编码特征,输出为预测文字书写轨迹序列;联合训练双流编码网络和解码网络,获得文字图像书写轨迹恢复网络模型;利用训练完成的文字图像书写轨迹恢复网络模型进行书写轨迹恢复。本发明方法在编码过程中,分别提取文字在竖直和水平方向上的特征,实现对特征进行降采样、减少参数量的同时,保留必要的文字字形信息,帮助后续解码精确地反映文字的字形,有效提升文字图像书写轨迹的恢复性能。
-
公开(公告)号:CN114495114A
公开(公告)日:2022-05-13
申请号:CN202210402975.1
申请日:2022-04-18
Applicant: 华南理工大学 , 人工智能与数字经济广东省实验室(广州)
Abstract: 本发明公开了基于CTC解码器的文本序列识别模型校准方法,包括:将文本图像支撑集输入至待校准训练模型中,获得文本序列识别结果;利用文本图像支撑集的文本序列识别结果计算上下文混淆矩阵,上下文混淆矩阵用于表征序列中相邻时刻预测字符之间的上下文分布关系;根据上下文混淆矩阵,利用上下文相关预测分布对标签平滑中平滑强度有选择性地进行自适应的变化,以实现序列置信度的自适应校准;基于上下文选择性损失函数重新训练待校准训练模型,输出预测文本序列及校准的置信度。本发明方法将标签平滑扩展到基于CTC解码器的文本序列识别模型上,引入序列间上下文关系,对预测序列进行自适应的校准,使得模型输出预测文本置信度能够更加精准。
-
公开(公告)号:CN109410242B
公开(公告)日:2020-09-22
申请号:CN201811031639.0
申请日:2018-09-05
Applicant: 华南理工大学
IPC: G06T7/246
Abstract: 本发明公开了一种基于双流卷积神经网络的目标跟踪方法、系统、设备及介质,所述方法包括:构建空间流二维卷积神经网络,提取当前帧中图像块的特征信息;构建时序流三维卷积神经网络,提取一定时序范围内的视频序列中帧与帧之间目标的运动变化特征信息;加性融合空间流二维卷积神经网络和时序流三维卷积神经网络的特征信息;根据融合的特征信息,构建全连接子网络,提取符合要求的图像块;对符合要求的图像块的边界框进行边界框回归,得到当前帧目标的预测位置和大小;在对目标跟踪前,对空间流二维卷积神经网络和时序流三维卷积神经网络进行线下训练;在对目标跟踪过程中,对全连接子网络进行线上精调。本发明达到了很好的跟踪效果。
-
公开(公告)号:CN105488472B
公开(公告)日:2019-04-09
申请号:CN201510860633.4
申请日:2015-11-30
Applicant: 华南理工大学
Abstract: 本发明提供一种基于样本模板的数字化妆方法,先对淡妆或素颜人脸照片和妆容提供照片进行人脸检测、人脸特征点定位检测和人脸图像变形对准,在此基础上对人脸图像利用改进的引导滤波器进行图层分解,利用基于样本的超分辨率重构算法解决妆容提供图像和输入人脸图像的分辨率差异问题,最后进行人脸图像的图层合成,输出淡妆或素颜照片化妆之后的图像。本发明提出一种新颖的基于模板的数字化妆方法,通过对图层分解和图层合成算法的改进,获得更为真实的化妆效果,且显著缩减算法时间复杂度,使得数字化妆算法实用化和实时化。
-
公开(公告)号:CN109410242A
公开(公告)日:2019-03-01
申请号:CN201811031639.0
申请日:2018-09-05
Applicant: 华南理工大学
IPC: G06T7/20
Abstract: 本发明公开了一种基于双流卷积神经网络的目标跟踪方法、系统、设备及介质,所述方法包括:构建空间流二维卷积神经网络,提取当前帧中图像块的特征信息;构建时序流三维卷积神经网络,提取一定时序范围内的视频序列中帧与帧之间目标的运动变化特征信息;加性融合空间流二维卷积神经网络和时序流三维卷积神经网络的特征信息;根据融合的特征信息,构建全连接子网络,提取符合要求的图像块;对符合要求的图像块的边界框进行边界框回归,得到当前帧目标的预测位置和大小;在对目标跟踪前,对空间流二维卷积神经网络和时序流三维卷积神经网络进行线下训练;在对目标跟踪过程中,对全连接子网络进行线上精调。本发明达到了很好的跟踪效果。
-
公开(公告)号:CN105469407B
公开(公告)日:2018-06-22
申请号:CN201510862964.1
申请日:2015-11-30
Applicant: 华南理工大学
Abstract: 本发明提供一种基于改进的引导滤波器的人脸图像图层分解方法,对人脸图像亮度通道进行改进型引导滤波,得到人脸结构信息层,进一步差分运算得到纹理细节层。本发明对引导滤波器进行正则化因子自适应调整优化和对参数矩阵图像进行高斯模糊和腐蚀处理,使得人脸图像在不同区域获得不同滤波效果。应用于数字化妆系统,获得优异的图层分解效果,显著降低图层分解的时间复杂度。
-
公开(公告)号:CN108090443A
公开(公告)日:2018-05-29
申请号:CN201711352220.0
申请日:2017-12-15
Applicant: 华南理工大学
Abstract: 本发明公开了基于深度强化学习的场景文本检测方法及系统,所述方法包括:训练一个特征提取网络;训练一个决策网络;通过特征提取网络和决策网络定位待检测图像上场景文本的位置;其中,所述特征提取网络为场景文本图像特征提取的深度卷积神经网络;所述决策网络为拟合强化学习Q值函数的神经网络。本发明将场景文本检测解析为基于视觉的连续性决策问题,结合强化学习与深度神经网络,模拟日常生活中人眼从整图开始逐渐聚焦到目标物体的过程;在训练过程中,利用深度神经网络,很好地提取出当前定位框图像信息,以强化学习方法训练出能进行目标文本定位的模型。
-
公开(公告)号:CN118762103B
公开(公告)日:2025-01-24
申请号:CN202411240512.5
申请日:2024-09-05
Applicant: 华南理工大学
IPC: G06T11/20 , G06V30/18 , G06V30/19 , G06V30/22 , G06N3/0442 , G06N3/0455 , G06N3/0464 , G06N3/0475 , G06N3/0895 , G06N3/092
Abstract: 本发明公开了一种基于扩散模型的单样本手写文字临摹方法,包括以下步骤:构建能够临摹任意手写风格的扩散模型生成网络,包括风格特征增强模块,内容编码器,自适应融合模块,条件扩散模型;以手写样本图像和标准字体图像作为风格输入和内容输入,分别经内容编码器和风格编码器提取出风格特征和内容特征,然后将风格和内容特征同时输入到条件扩散模型中生成具有目标风格和内容的手写文字;训练所述的能够临摹任意手写风格扩散模型生成网络;使用训练好的扩散模型生成网络来生成同时满足目标风格和目标内容的手写文字。本发明方法结合高频信息提取和门控机制,能够提取更加准确的用户手写风格,引导条件扩散模型合成更加逼真的风格化手写文字。
-
公开(公告)号:CN118314583B
公开(公告)日:2025-01-21
申请号:CN202410337361.9
申请日:2024-03-23
Applicant: 华南理工大学
IPC: G06V30/19 , G06V30/244 , G06V30/18 , G06V10/82
Abstract: 本发明公开了一种语义增强的零样本甲骨文字符识别方法,包括:根据域和字符类别为甲骨文图像构造可学习的提示信息;引入对比式语言‑图像预训练模型,并通过平衡采样策略采样数据,对可学习的提示信息进行优化,以实现从甲骨文拓片和字模图像中挖掘出语义信息;去除域提示信息来得到域无关的提示信息,进而通过语义编码器编码得到域无关的字符语义;通过类内共享特征学习分支和类间差异特征学习分支对视觉编码器进行监督训练;采用训练好的视觉编码器,实现零样本甲骨文字符识别。
-
公开(公告)号:CN117743652B
公开(公告)日:2025-01-10
申请号:CN202311732260.3
申请日:2023-12-16
Applicant: 华南理工大学
IPC: G06F16/9032 , G06F16/242 , G06F16/2452 , G06F16/2455 , G06F16/28 , G06F16/901 , G06F40/279 , G06F40/253 , G06F40/30 , G06N3/0895 , G06N5/02 , G06N5/04
Abstract: 本发明公开了基于深度学习的弱监督时序图谱问答方法,包括以下步骤:步骤1,获得时序图谱数据集;步骤2,利用时序图谱数据集通过模板填充与有效性验证生成对应的数据库查询语句;步骤3,利用生成的数据库查询语句训练自然语言转数据库查询语句模型;步骤4,通过自然语言转数据库查询语句模型推理获得数据库查询语句,并根据该数据库查询语句进行数据库查询获得最终答案;使本发明的答案在维持较高的可解释性的同时,极大地降低了模型训练过程中对数据的标注要求。
-
-
-
-
-
-
-
-
-