-
公开(公告)号:CN119516530B
公开(公告)日:2025-05-09
申请号:CN202411580630.0
申请日:2024-11-07
Applicant: 华南理工大学
IPC: G06V20/62 , G06V30/18 , G06V30/19 , G06V10/82 , G06N3/0985 , G06N3/0455
Abstract: 本发明公开了基于空间位置与场景关联的文本检测识别模型校准方法,包括:根据目标文本序列的似然最大化和目标位置的绝对距离最小化对端到端文本检测识别模型进行监督获得识别损失;通过文本关联序列挖掘模型构建文本关联序列集;通过空间位置平滑方法构建文本平滑位置集;根据文本关联序列集联合正则内容损失实现文本内容置信度校准;根据文本平滑位置集联合正则位置损失实现文本位置置信度校准;引入全局校准强度系数联合正则内容损失和正则位置损失构建正则化损失函数,实现总体的可控性端到端置信度校准;联合识别损失和正则化损失得到最终损失以训练得到校准后的端到端文本检测识别模型,用于输出预测文本序列、位置及校准的置信度。
-
公开(公告)号:CN119830957A
公开(公告)日:2025-04-15
申请号:CN202411895199.9
申请日:2024-12-21
Applicant: 华南理工大学
IPC: G06N3/0455 , G06N3/08 , G06F18/23213 , G06F18/25
Abstract: 本发明公开了一种大模型的最优嵌入位置的快速搜索方法,其特征在于,所述方法包括:选取任务的数据集的K个代表性样本,构建一个用于搜索最优嵌入位置的代表集,其中K不宜过大;将代表集所有样本,同时输入给多模态大模型(MLLM),和特定任务的小模型,并引入特征融合模块,对MLLM的第i个Transformer模块的特征和小模型最终层的特征进行融合;冻结小模型的参数,对MLLM的所有参数进行k步的参数高效微调,其中k不宜过大;微调的每一步,对参数关于损失函数求梯度向量的二范数,得到k个梯度二范数,并对k个梯度二范数加权求和,得到适应度;更换随机数种子,重复第2到4步,进行P次重复实验,其中P不应过大也不应过小,取3到30次为宜;对i在1到T取值范围中做迭代,每步迭代重复2到5步,得到不同嵌入位置的平均适应度,最终选择平均适应度最大的i*作为最优嵌入位置,其中T为MLLM总层数。本发明提供的大模型的最优嵌入位置的快速搜索方法,具有搜索速度快,任务拓展性强的特点,特别适用于需要快速对大模型进行小模型知识融合的场景。
-
公开(公告)号:CN118710780A
公开(公告)日:2024-09-27
申请号:CN202411186814.9
申请日:2024-08-28
Applicant: 华南理工大学
Abstract: 本发明公开了一种基于语言学关键帧的语音驱动三维人脸运动动画生成方法,包括以下步骤:获取一维语音信号;对一维语音信号进行预处理,获得关键帧时间索引;利用一维语音信号和关键帧时间索引进行关键帧人脸运动生成;利用一维语音信号、关键帧时间索引、关键帧人脸运动生成完整的人脸运动序列;显著提高了面部动画的准确性和自然度,实现了面部表情与语音信号的高度同步,有效解决了现有方法生成人脸运动动画过于平滑的问题,特别是在处理复杂面部表情(如噘嘴或张嘴)时的动态细节缺失问题。不仅能够提高三维面部动画的生成质量,适用于虚拟现实和增强现实等应用,还能够提升人机交互的自然性和用户体验。
-
公开(公告)号:CN117743652A
公开(公告)日:2024-03-22
申请号:CN202311732260.3
申请日:2023-12-16
Applicant: 华南理工大学
IPC: G06F16/9032 , G06F16/242 , G06F16/2452 , G06F16/2455 , G06F16/28 , G06F16/901 , G06F40/279 , G06F40/253 , G06F40/30 , G06N3/0895 , G06N5/02 , G06N5/04
Abstract: 本发明公开了基于深度学习的弱监督时序图谱问答方法,包括以下步骤:步骤1,获得时序图谱数据集;步骤2,利用时序图谱数据集通过模板填充与有效性验证生成对应的数据库查询语句;步骤3,利用生成的数据库查询语句训练自然语言转数据库查询语句模型;步骤4,通过自然语言转数据库查询语句模型推理获得数据库查询语句,并根据该数据库查询语句进行数据库查询获得最终答案;使本发明的答案在维持较高的可解释性的同时,极大地降低了模型训练过程中对数据的标注要求。
-
公开(公告)号:CN117216245A
公开(公告)日:2023-12-12
申请号:CN202311482529.7
申请日:2023-11-09
Applicant: 华南理工大学
Abstract: 本发明公开了一种基于深度学习的表格摘要生成方法,包括以下步骤:步骤1,将表格的参考摘要进行切分,通过匹配算法得到表格对应的内容行;步骤2,将表格对应的内容行进行两两配对,得到独立内容行与合并内容行;步骤3,获取所述独立内容行与所述合并内容行分别对应的文本摘要;步骤4,将所述分别对应的文本摘要融合在一起,形成整个表格的文本摘要作为最终模型的输出;通过对表格进行跨行合并和将内容行逐行生成摘要的方式,解决了表格存在跨行较多以及单元格数目较多时效果不佳的问题,从而提高了表格生成摘要的鲁棒性和准确性。
-
公开(公告)号:CN116563874A
公开(公告)日:2023-08-08
申请号:CN202310533494.9
申请日:2023-05-12
Applicant: 华南理工大学 , 广东省中医院(广州中医药大学第二附属医院、广州中医药大学第二临床医学院、广东省中医药科学院)
IPC: G06V30/414 , G06V30/146 , G06V30/186 , G06V30/19 , G06V10/82 , G06N3/045 , G06N3/042 , G06N3/0442 , G06N3/0464 , G06N3/08
Abstract: 本发明公开了一种基于多任务交互的医学诊疗报表端到端识别方法,其特征在于,所述方法包括:构建多任务交互端到端识别网络,所述的多任务,包括医学诊疗报表的结构和内容识别、表格单元格的检测定位;构建单元格的视觉特征与结构语义特征的匹配损失函数;利用不确定度加权的多任务学习损失函数训练所述的多任务交互端到端识别网络;后处理网络预测结果。本发明方法提供一种端到端可训练的基于多任务交互以及单元格语义与视觉特征对齐的方法来高效识别医学诊疗报表。
-
公开(公告)号:CN115620265B
公开(公告)日:2023-04-18
申请号:CN202211631506.3
申请日:2022-12-19
Applicant: 华南理工大学 , 株洲中车时代软件技术有限公司
IPC: G06V20/58 , G06N3/0464 , G06N3/048 , G06N3/084 , G06N3/09 , G06V10/44 , G06V10/764 , G06V10/82 , G06V30/146 , G06V30/18 , G06V30/19
Abstract: 本发明公开了基于深度学习的机车标志牌信息智能识别方法,包括以下步骤:获得机车标志牌图像数据;对所述的机车标志牌图像进行预分类;根据预分类结果,采用对应的方法进行图像文本识别及分类;获得所述的机车标志牌图像的具体类别及文本信息;所述的预分类结果包括单一文本标志牌、单行文本标志牌、单列文本标志牌和多文本标志牌。本发明实施例实现了机车线路标志牌类别信息与文本信息的智能识别,通过标志牌预分类算法,对不同的预分类采用不同的处理方法,提升了对机车标志牌的识别速度与复杂标志牌的识别精度,并通过融合文本与图像的多模态特征,实现了高精度的具体分类识别和文本信息提取。
-
公开(公告)号:CN115620322B
公开(公告)日:2023-04-07
申请号:CN202211637591.4
申请日:2022-12-20
Applicant: 华南理工大学
IPC: G06V30/412 , G06F40/151 , G06T7/66 , G06T7/70 , G06V10/28 , G06V10/32 , G06V10/34 , G06V10/44 , G06V10/764
Abstract: 本发明公开了一种基于关键点检测的全线表表格结构识别方法,包括:采用关键点检测网络对表格图像中的关键点进行检测,得到包含所有关键点位置信息的高斯热图;将高斯热图放缩至和输入表格图像尺寸一致,并通过轮廓中心距算法得到所有关键点的坐标位置;使用扫描线法解析关键点在表格中的结构位置关系;使用连通域法检测相邻的关键点是否存在连接关系;根据关键点之间的结构位置关系和连接关系重构出表格中所有的单元格,并转换为需要的标记语言描述。本发明方法采用基于深度学习的关键点检测方法能够鲁棒地找到表格图像中的所有表格线交点,并根据这些关键点获取所有单元格的准确位置,从而高质量完成表格结构识别。
-
公开(公告)号:CN115620322A
公开(公告)日:2023-01-17
申请号:CN202211637591.4
申请日:2022-12-20
Applicant: 华南理工大学
IPC: G06V30/412 , G06F40/151 , G06T7/66 , G06T7/70 , G06V10/28 , G06V10/32 , G06V10/34 , G06V10/44 , G06V10/764
Abstract: 本发明公开了一种基于关键点检测的全线表表格结构识别方法,包括:采用关键点检测网络对表格图像中的关键点进行检测,得到包含所有关键点位置信息的高斯热图;将高斯热图放缩至和输入表格图像尺寸一致,并通过轮廓中心距算法得到所有关键点的坐标位置;使用扫描线法解析关键点在表格中的结构位置关系;使用连通域法检测相邻的关键点是否存在连接关系;根据关键点之间的结构位置关系和连接关系重构出表格中所有的单元格,并转换为需要的标记语言描述。本发明方法采用基于深度学习的关键点检测方法能够鲁棒地找到表格图像中的所有表格线交点,并根据这些关键点获取所有单元格的准确位置,从而高质量完成表格结构识别。
-
公开(公告)号:CN114495118A
公开(公告)日:2022-05-13
申请号:CN202210392274.4
申请日:2022-04-15
Applicant: 华南理工大学 , 人工智能与数字经济广东省实验室(广州)
Abstract: 本发明公开了基于对抗解耦的个性化手写文字生成方法,包括以下步骤:构建风格向量提取器和内容分类器;以所述的风格向量提取器为生成器,以所述的内容分类器为判别器,进行生成对抗学习;将手写文字图片输入学习后的风格向量提取器,获得手写风格向量;将待生成的目标文字通过内容嵌入层映射为内容向量;拼接所述的手写风格向量和所述的内容向量,然后在融合初始序列,获得解码向量;将所述的解码向量输入解码器进行解码,获得具有手写风格的目标文字的轨迹预测序列。本发明方法能够通过对抗解耦的方式,利用对抗网络帮助风格提取器消除风格向量中夹杂的内容信息,提取出干净的风格向量,进而提升个性化手写文字的生成效果。
-
-
-
-
-
-
-
-
-