-
公开(公告)号:CN114757969A
公开(公告)日:2022-07-15
申请号:CN202210363417.9
申请日:2022-04-08
Applicant: 华南理工大学 , 人工智能与数字经济广东省实验室(广州)
Abstract: 本发明公开了基于全局追踪解码的文字图像书写轨迹恢复方法,包括以下步骤:将文字图像调整为预设尺寸并进行二值化处理;构建卷积循环神经编码网络;构建全局追踪解码网络,所述的全局追踪解码网络的输入为编码特征Z,输出为预测文字书写轨迹序列;联合训练卷积循环神经编码网络和全局追踪解码网络,获得文字图像书写轨迹恢复网络模型;利用训练完成的文字图像书写轨迹恢复网络模型进行书写轨迹恢复。本发明方法在解码的过程中,设置全局追踪解码机制,在每个解码时刻,加入编码特征作为RNN解码器的输入,有助于解码器在整个轨迹序列的预测过程中都能对全局文字特征进行持续追踪,缓解轨迹序列偏移问题,有效提升文字图像书写轨迹的恢复性能。
-
公开(公告)号:CN114511853B
公开(公告)日:2022-07-12
申请号:CN202210417388.X
申请日:2022-04-21
Applicant: 华南理工大学 , 人工智能与数字经济广东省实验室(广州)
Abstract: 本发明公开了一种文字图像书写轨迹恢复效果判别方法,包括:对原始文字图像进行掩膜化操作并二值化处理得到输入图像掩膜;将恢复轨迹渲染得到恢复轨迹掩膜;恢复轨迹掩膜逐步进行多次膨胀操作,得到多个膨胀掩膜;采用交并比计算方法,分别计算恢复轨迹掩膜以及多个膨胀掩膜与输入图像掩膜的IoU分数;计算出的数值最大的IoU分数作为DloU分数,所述DloU分数为最终判别结果。本发明方法设计交并比计算方法,计算输入图像掩膜和恢复轨迹掩膜的相似度,设计动态膨胀机制,将恢复轨迹掩膜和膨胀掩膜分别与输入图像掩膜计算交并比分数,使用动态交并比分数消除输入文字图像笔画宽度对字形保真程度评价的影响。
-
公开(公告)号:CN114757969B
公开(公告)日:2023-04-07
申请号:CN202210363417.9
申请日:2022-04-08
Applicant: 华南理工大学 , 人工智能与数字经济广东省实验室(广州)
IPC: G06T7/246 , G06N3/044 , G06N3/0455 , G06N3/0464 , G06N3/049 , G06N3/084
Abstract: 本发明公开了基于全局追踪解码的文字图像书写轨迹恢复方法,包括以下步骤:将文字图像调整为预设尺寸并进行二值化处理;构建卷积循环神经编码网络;构建全局追踪解码网络,所述的全局追踪解码网络的输入为编码特征Z,输出为预测文字书写轨迹序列;联合训练卷积循环神经编码网络和全局追踪解码网络,获得文字图像书写轨迹恢复网络模型;利用训练完成的文字图像书写轨迹恢复网络模型进行书写轨迹恢复。本发明方法在解码的过程中,设置全局追踪解码机制,在每个解码时刻,加入编码特征作为RNN解码器的输入,有助于解码器在整个轨迹序列的预测过程中都能对全局文字特征进行持续追踪,缓解轨迹序列偏移问题,有效提升文字图像书写轨迹的恢复性能。
-
公开(公告)号:CN114463760B
公开(公告)日:2022-06-28
申请号:CN202210363354.7
申请日:2022-04-08
Applicant: 华南理工大学 , 人工智能与数字经济广东省实验室(广州)
IPC: G06V30/32 , G06V20/62 , G06V30/10 , G06V10/28 , G06V10/44 , G06V10/764 , G06V10/82 , G06K9/62 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种基于双流编码的文字图像书写轨迹恢复方法,包括以下步骤:将文字图像调整为预设尺寸并进行二值化处理;构建双流编码网络,所述的双流编码网络输入为文字图像,输出为双流融合编码特征;构建解码网络,所述的解码网络的输入为双流融合编码特征,输出为预测文字书写轨迹序列;联合训练双流编码网络和解码网络,获得文字图像书写轨迹恢复网络模型;利用训练完成的文字图像书写轨迹恢复网络模型进行书写轨迹恢复。本发明方法在编码过程中,分别提取文字在竖直和水平方向上的特征,实现对特征进行降采样、减少参数量的同时,保留必要的文字字形信息,帮助后续解码精确地反映文字的字形,有效提升文字图像书写轨迹的恢复性能。
-
公开(公告)号:CN114511853A
公开(公告)日:2022-05-17
申请号:CN202210417388.X
申请日:2022-04-21
Applicant: 华南理工大学 , 人工智能与数字经济广东省实验室(广州)
Abstract: 本发明公开了一种文字图像书写轨迹恢复效果判别方法,包括:对原始文字图像进行掩膜化操作并二值化处理得到输入图像掩膜;将恢复轨迹渲染得到恢复轨迹掩膜;恢复轨迹掩膜逐步进行多次膨胀操作,得到多个膨胀掩膜;采用交并比计算方法,分别计算恢复轨迹掩膜以及多个膨胀掩膜与输入图像掩膜的IoU分数;计算出的数值最大的IoU分数作为DloU分数,所述DloU分数为最终判别结果。本发明方法设计交并比计算方法,计算输入图像掩膜和恢复轨迹掩膜的相似度,设计动态膨胀机制,将恢复轨迹掩膜和膨胀掩膜分别与输入图像掩膜计算交并比分数,使用动态交并比分数消除输入文字图像笔画宽度对字形保真程度评价的影响。
-
公开(公告)号:CN114463760A
公开(公告)日:2022-05-10
申请号:CN202210363354.7
申请日:2022-04-08
Applicant: 华南理工大学 , 人工智能与数字经济广东省实验室(广州)
IPC: G06V30/32 , G06V20/62 , G06V30/10 , G06V10/28 , G06V10/44 , G06V10/764 , G06V10/82 , G06K9/62 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种基于双流编码的文字图像书写轨迹恢复方法,包括以下步骤:将文字图像调整为预设尺寸并进行二值化处理;构建双流编码网络,所述的双流编码网络输入为文字图像,输出为双流融合编码特征;构建解码网络,所述的解码网络的输入为双流融合编码特征,输出为预测文字书写轨迹序列;联合训练双流编码网络和解码网络,获得文字图像书写轨迹恢复网络模型;利用训练完成的文字图像书写轨迹恢复网络模型进行书写轨迹恢复。本发明方法在编码过程中,分别提取文字在竖直和水平方向上的特征,实现对特征进行降采样、减少参数量的同时,保留必要的文字字形信息,帮助后续解码精确地反映文字的字形,有效提升文字图像书写轨迹的恢复性能。
-
公开(公告)号:CN117743652B
公开(公告)日:2025-01-10
申请号:CN202311732260.3
申请日:2023-12-16
Applicant: 华南理工大学
IPC: G06F16/9032 , G06F16/242 , G06F16/2452 , G06F16/2455 , G06F16/28 , G06F16/901 , G06F40/279 , G06F40/253 , G06F40/30 , G06N3/0895 , G06N5/02 , G06N5/04
Abstract: 本发明公开了基于深度学习的弱监督时序图谱问答方法,包括以下步骤:步骤1,获得时序图谱数据集;步骤2,利用时序图谱数据集通过模板填充与有效性验证生成对应的数据库查询语句;步骤3,利用生成的数据库查询语句训练自然语言转数据库查询语句模型;步骤4,通过自然语言转数据库查询语句模型推理获得数据库查询语句,并根据该数据库查询语句进行数据库查询获得最终答案;使本发明的答案在维持较高的可解释性的同时,极大地降低了模型训练过程中对数据的标注要求。
-
公开(公告)号:CN118710996B
公开(公告)日:2024-12-06
申请号:CN202411191850.4
申请日:2024-08-28
Applicant: 华南理工大学
IPC: G06V10/764 , G06N3/0455 , G06N3/098 , G06V10/77 , G06V10/82
Abstract: 本发明公开了一种基于扩散驱动数据回放的联邦类持续学习图像分类方法,所述方法包括:初始化阶段,服务器初始化预训练扩散模型和图像分类模型并发送给客户端;类别逆向编码阶段,客户端对新任务类别进行逆向编码,得到类别嵌入向量;图像生成阶段,利用类别嵌入向量生成图像;图像分类模型训练阶段,各个客户端用生成数据和合成数据训练图像分类模型。对于联邦类持续学习图像分类,其关键难点在于灾难性遗忘,即模型在学习新任务时遗忘旧任务的知识,为解决这一难点,通过预训练扩散模型对各个类别数据进行逆向工程,得到类别嵌入向量,在学习新任务时利用类别嵌入向量对历史任务数据进行生成回放,有效缓解灾难性遗忘。
-
公开(公告)号:CN118710996A
公开(公告)日:2024-09-27
申请号:CN202411191850.4
申请日:2024-08-28
Applicant: 华南理工大学
IPC: G06V10/764 , G06N3/0455 , G06N3/098 , G06V10/77 , G06V10/82
Abstract: 本发明公开了一种基于扩散驱动数据回放的联邦类持续学习图像分类方法,所述方法包括:初始化阶段,服务器初始化预训练扩散模型和图像分类模型并发送给客户端;类别逆向编码阶段,客户端对新任务类别进行逆向编码,得到类别嵌入向量;图像生成阶段,利用类别嵌入向量生成图像;图像分类模型训练阶段,各个客户端用生成数据和合成数据训练图像分类模型。对于联邦类持续学习图像分类,其关键难点在于灾难性遗忘,即模型在学习新任务时遗忘旧任务的知识,为解决这一难点,通过预训练扩散模型对各个类别数据进行逆向工程,得到类别嵌入向量,在学习新任务时利用类别嵌入向量对历史任务数据进行生成回放,有效缓解灾难性遗忘。
-
公开(公告)号:CN111126280B
公开(公告)日:2023-03-21
申请号:CN201911352287.3
申请日:2019-12-25
Applicant: 华南理工大学
IPC: G06V40/10 , G06V10/762 , G06V10/764 , G06V10/82 , G06N3/0464 , G06N3/08 , G06F3/01 , G16H20/30 , A61M21/00
Abstract: 本发明提供一种基于融合手势识别的失语症患者辅助康复训练系统,包括:嵌入式计算平台:包括物体检测和手势识别单元、康复训练与用户交互单元和训练结果评估单元;场景摄像头;用户监控摄像头;显示屏:用于显示前端交互界面并与使用者进行交互;语音模块:用于合成并播放训练指令语音;外部电源:用于整套训练系统的供电;所述嵌入式计算平台分别与场景摄像头、用户监控摄像头、语音模块、显示器和外部电源连接。本发明还提供一种基于融合手势识别的失语症患者辅助康复训练方法,该训练系统及方法具有良好的贴近患者现实生活的能力和部署的方便性,极大地满足了日益增长的失语症康复训练需求,提高了失语症患者人群的康复训练效果。
-
-
-
-
-
-
-
-
-