-
公开(公告)号:CN112163596B
公开(公告)日:2024-01-05
申请号:CN202010919026.1
申请日:2020-09-04
Applicant: 华南理工大学 , 华南理工大学珠海现代产业创新研究院
IPC: G06V20/62 , G06V30/19 , G06V10/764 , G06V10/82 , G06N3/0455 , G06N3/0464 , G06N3/08
Abstract: 本发明公开了一种复杂场景文本识别方法、系统、计算机设备及存储介质,该方法包括:将残差卷积神经网络作为文本图像编码器,对文本图像进行特征提取,得到特征图;构建连接时序分类解码器和二维注意力解码器;并联连接时序分类解码器和二维注意力解码器,使两者共享文本图像编码器的输出;将特征图输入连接时序分类解码器,转换成一维特征序列,并将一维特征序列译码成第一文本序列;将特征图输入二维注意力解码器,转换成二维特征序列,并将二维特征序列译码成第二文本序列;利用输出选择策略对第一文本序列和第二文本序列进行优选,输出文本识别结果。本发明实现了对长短不一,线性文
-
公开(公告)号:CN112163596A
公开(公告)日:2021-01-01
申请号:CN202010919026.1
申请日:2020-09-04
Applicant: 华南理工大学 , 华南理工大学珠海现代产业创新研究院
Abstract: 本发明公开了一种复杂场景文本识别方法、系统、计算机设备及存储介质,该方法包括:将残差卷积神经网络作为文本图像编码器,对文本图像进行特征提取,得到特征图;构建连接时序分类解码器和二维注意力解码器;并联连接时序分类解码器和二维注意力解码器,使两者共享文本图像编码器的输出;将特征图输入连接时序分类解码器,转换成一维特征序列,并将一维特征序列译码成第一文本序列;将特征图输入二维注意力解码器,转换成二维特征序列,并将二维特征序列译码成第二文本序列;利用输出选择策略对第一文本序列和第二文本序列进行优选,输出文本识别结果。本发明实现了对长短不一,线性文本序列和二维文本序列混合的复杂多样场景文本的精准识别。
-
公开(公告)号:CN119943435A
公开(公告)日:2025-05-06
申请号:CN202510003480.5
申请日:2025-01-02
Applicant: 华南理工大学
IPC: G16H70/00 , G06F40/30 , G06F16/334 , G06N3/0455 , G06N3/048 , G06N3/08 , G06F16/35
Abstract: 本发明公开了一种中医情境信息精准结构化表示及语义比对方法,包括构建情境维度语义丰富网络;将中医情境文本经思维链结构化模块提取关键维度信息并转化为结构化情境文本,然后经情境信息编码模块提取多层次维度特征,接着依次通过层内上下文信息丰富模块和层间信息交汇模块捕获层内上下文信息和层间多维度信息获得语义丰富的情境语义特征;训练所述情境维度语义丰富网络并进行情境语义比对;本发明结合思维链提示调优方法挖掘通用中文大语言模型的中医语义理解能力,准确地对中医情境信息进行提取,同时融合多层次的中医情境维度信息获得语义丰富的情境语义特征,提升中医情境语义比对的准确性,为中医临床医生提供有价值的参考情境。
-
公开(公告)号:CN119516530A
公开(公告)日:2025-02-25
申请号:CN202411580630.0
申请日:2024-11-07
Applicant: 华南理工大学
IPC: G06V20/62 , G06V30/18 , G06V30/19 , G06V10/82 , G06N3/0985 , G06N3/0455
Abstract: 本发明公开了基于空间位置与场景关联的文本检测识别模型校准方法,包括:根据目标文本序列的似然最大化和目标位置的绝对距离最小化对端到端文本检测识别模型进行监督获得识别损失;通过文本关联序列挖掘模型构建文本关联序列集;通过空间位置平滑方法构建文本平滑位置集;根据文本关联序列集联合正则内容损失实现文本内容置信度校准;根据文本平滑位置集联合正则位置损失实现文本位置置信度校准;引入全局校准强度系数联合正则内容损失和正则位置损失构建正则化损失函数,实现总体的可控性端到端置信度校准;联合识别损失和正则化损失得到最终损失以训练得到校准后的端到端文本检测识别模型,用于输出预测文本序列、位置及校准的置信度。
-
公开(公告)号:CN119397047A
公开(公告)日:2025-02-07
申请号:CN202411521888.3
申请日:2024-10-29
Applicant: 华南理工大学
IPC: G06F16/55 , G06F16/532 , G06F16/583 , G06V10/764 , G06V10/77 , G06V10/40 , G06V10/774 , G06V10/82 , G06N3/048 , G06N3/0464 , G06N3/08
Abstract: 本发明公开了一种基于难负样本表征合成的图像检索方法,包括以下步骤:构建能够合成信息丰富的难负样本表征生成网络;以类别均衡采样策略构建的批量图像作为网络输入,经图像表征提取模块提取出批量图像表征,然后将批量图像表征输入到样本间全局关联学习模块中学习,将互为负类的样本对输入到关联感知的通道多样性插值模块中合成难负样本表征;训练所述的能够合成信息丰富的难负样本表征生成网络,利用合成的难负样本表征和真实样本表征共同训练图像表征提取模块;使用训练好的图像表征提取模块进行图像检索;通过结合样本间全局关联学习能力,合成更具信息量的难负样本表征,引导图像表征提取模块提取更具判别性的图像表征以增强检索性能。
-
公开(公告)号:CN118093956A
公开(公告)日:2024-05-28
申请号:CN202311732230.2
申请日:2023-12-16
Applicant: 华南理工大学
IPC: G06F16/9032 , G06F16/901 , G06F16/28 , G06F16/2455 , G06F16/2458 , G06F16/903 , G06F40/279 , G06F40/216 , G06N3/0442 , G06N5/02 , G06N5/04
Abstract: 本发明公开了一种用于多粒度时序知识图谱的问答方法,包括以下步骤:步骤1,对数据集进行预处理得到实体、关系、事件实体和时间;步骤2,利用数据集训练实体抽取模型和关系抽取模型得到更精准的实体和关系;步骤3,利用得到的实体、关系、事件实体和时间进行图谱查询得到最终的候选答案集;本发明中用于多粒度时序知识图谱的问答方法适应动态环境下的多粒度时序知识图谱问答场景,在多粒度时间和多时序约束下具有高精度问答性能,且该方法保证了推理效率,具有良好的泛化性,对不同类型的问题均有良好的性能。
-
公开(公告)号:CN114757969B
公开(公告)日:2023-04-07
申请号:CN202210363417.9
申请日:2022-04-08
Applicant: 华南理工大学 , 人工智能与数字经济广东省实验室(广州)
IPC: G06T7/246 , G06N3/044 , G06N3/0455 , G06N3/0464 , G06N3/049 , G06N3/084
Abstract: 本发明公开了基于全局追踪解码的文字图像书写轨迹恢复方法,包括以下步骤:将文字图像调整为预设尺寸并进行二值化处理;构建卷积循环神经编码网络;构建全局追踪解码网络,所述的全局追踪解码网络的输入为编码特征Z,输出为预测文字书写轨迹序列;联合训练卷积循环神经编码网络和全局追踪解码网络,获得文字图像书写轨迹恢复网络模型;利用训练完成的文字图像书写轨迹恢复网络模型进行书写轨迹恢复。本发明方法在解码的过程中,设置全局追踪解码机制,在每个解码时刻,加入编码特征作为RNN解码器的输入,有助于解码器在整个轨迹序列的预测过程中都能对全局文字特征进行持续追踪,缓解轨迹序列偏移问题,有效提升文字图像书写轨迹的恢复性能。
-
公开(公告)号:CN115618154B
公开(公告)日:2023-03-10
申请号:CN202211632718.3
申请日:2022-12-19
Applicant: 华南理工大学
IPC: G06F16/958
Abstract: 本发明公开了一种表格的标记语言标签与单元格锚框鲁棒对齐方法,方法包括:解析HTML结构字符串,得到td标签的行号、列号、跨行数目以及跨列数目;基于单元格的Bbox的竖直方向的坐标位置关系,为每个Bbox分配行号,并根据水平方向的坐标位置关系将Bbox从左至右进行排序;进行匹配行的各Bbox标签的分配;基于匹配行,根据水平方向的坐标位置关系,对所有未匹配行中的Bbox的列号进行投票,投票数最多的列号作为Bbox列号的预测结果,基于列号将Bbox与同行的td标签进行对齐,进行未匹配行的各Bbox标签的分配;由此得到整个表格各Bbox的行号、列号、跨行数目以及跨列数目的分配结果。
-
公开(公告)号:CN113313127B
公开(公告)日:2023-02-14
申请号:CN202110537652.9
申请日:2021-05-18
Applicant: 华南理工大学
IPC: G06V30/41 , G06V30/19 , G06V20/70 , G06V10/82 , G06N3/0455 , G06N3/0464 , G06N3/08
Abstract: 本发明公开了一种文本图像识别方法、装置、计算机设备和存储介质,所述方法包括:获取原始文本图像并进行预处理,得到处理后图像;利用特征编码网络中的残差卷积模块对所述处理后图像进行特征提取,得到图像特征;利用所述特征编码网络中上下文感知模块的类递归扩张卷积部分和通道级尺度注意力部分,对图像特征进行处理,得到上下文调制特征序列;对上下文调制序列进行解码,预测得到对应的符号序列。本发明利用上下文感知模块对不同尺度的文本进行上下文调制,同时利用残差模块和上下文感知模块交错连接,实现不同语义层次的上下文信息融合,为后续解码提供更多有效信息,提高了文本识别的准确率。
-
公开(公告)号:CN114495118B
公开(公告)日:2022-08-09
申请号:CN202210392274.4
申请日:2022-04-15
Applicant: 华南理工大学 , 人工智能与数字经济广东省实验室(广州)
Abstract: 本发明公开了基于对抗解耦的个性化手写文字生成方法,包括以下步骤:构建风格向量提取器和内容分类器;以所述的风格向量提取器为生成器,以所述的内容分类器为判别器,进行生成对抗学习;将手写文字图片输入学习后的风格向量提取器,获得手写风格向量;将待生成的目标文字通过内容嵌入层映射为内容向量;拼接所述的手写风格向量和所述的内容向量,然后在融合初始序列,获得解码向量;将所述的解码向量输入解码器进行解码,获得具有手写风格的目标文字的轨迹预测序列。本发明方法能够通过对抗解耦的方式,利用对抗网络帮助风格提取器消除风格向量中夹杂的内容信息,提取出干净的风格向量,进而提升个性化手写文字的生成效果。
-
-
-
-
-
-
-
-
-