Patent search ap:("华南理工大学") AND inv:"罗钰" Page 1

1.

发明公开
文本图像识别方法、装置、计算机设备和存储介质有权

公开(公告)号：CN113313127A

公开(公告)日：2021-08-27

申请号：CN202110537652.9

申请日：2021-05-18

Applicant: 华南理工大学

Inventor： 黄双萍 , 罗钰 , 陈洲楠

IPC: G06K9/46 , G06K9/42 , G06F40/30 , G06F40/126 , G06N3/04

Abstract: 本发明公开了一种文本图像识别方法、装置、计算机设备和存储介质，所述方法包括：获取原始文本图像并进行预处理，得到处理后图像；利用特征编码网络中的残差卷积模块对所述处理后图像进行特征提取，得到图像特征；利用所述特征编码网络中上下文感知模块的类递归扩张卷积部分和通道级尺度注意力部分，对图像特征进行处理，得到上下文调制特征序列；对上下文调制序列进行解码，预测得到对应的符号序列。本发明利用上下文感知模块对不同尺度的文本进行上下文调制，同时利用残差模块和上下文感知模块交错连接，实现不同语义层次的上下文信息融合，为后续解码提供更多有效信息，提高了文本识别的准确率。

2.

发明授权
文本图像识别方法、装置、计算机设备和存储介质有权

公开(公告)号：CN113313127B

公开(公告)日：2023-02-14

申请号：CN202110537652.9

申请日：2021-05-18

Applicant: 华南理工大学

Inventor： 黄双萍 , 罗钰 , 陈洲楠

IPC: G06V30/41 , G06V30/19 , G06V20/70 , G06V10/82 , G06N3/0455 , G06N3/0464 , G06N3/08

Abstract: 本发明公开了一种文本图像识别方法、装置、计算机设备和存储介质，所述方法包括：获取原始文本图像并进行预处理，得到处理后图像；利用特征编码网络中的残差卷积模块对所述处理后图像进行特征提取，得到图像特征；利用所述特征编码网络中上下文感知模块的类递归扩张卷积部分和通道级尺度注意力部分，对图像特征进行处理，得到上下文调制特征序列；对上下文调制序列进行解码，预测得到对应的符号序列。本发明利用上下文感知模块对不同尺度的文本进行上下文调制，同时利用残差模块和上下文感知模块交错连接，实现不同语义层次的上下文信息融合，为后续解码提供更多有效信息，提高了文本识别的准确率。

3.

发明公开
基于CTC解码器的文本序列识别模型校准方法有权

公开(公告)号：CN114495114A

公开(公告)日：2022-05-13

申请号：CN202210402975.1

申请日：2022-04-18

Applicant: 华南理工大学 , 人工智能与数字经济广东省实验室(广州)

Inventor： 黄双萍 , 罗钰 , 徐可可

IPC: G06V30/19 , G06V30/26 , G06K9/62

Abstract: 本发明公开了基于CTC解码器的文本序列识别模型校准方法，包括：将文本图像支撑集输入至待校准训练模型中，获得文本序列识别结果；利用文本图像支撑集的文本序列识别结果计算上下文混淆矩阵，上下文混淆矩阵用于表征序列中相邻时刻预测字符之间的上下文分布关系；根据上下文混淆矩阵，利用上下文相关预测分布对标签平滑中平滑强度有选择性地进行自适应的变化，以实现序列置信度的自适应校准；基于上下文选择性损失函数重新训练待校准训练模型，输出预测文本序列及校准的置信度。本发明方法将标签平滑扩展到基于CTC解码器的文本序列识别模型上，引入序列间上下文关系，对预测序列进行自适应的校准，使得模型输出预测文本置信度能够更加精准。

4.

发明公开
基于感知和语义关联性的文本识别模型可靠性正则方法无效

公开(公告)号：CN117151111A

公开(公告)日：2023-12-01

申请号：CN202311027442.0

申请日：2023-08-15

Applicant: 华南理工大学

Inventor： 黄双萍 , 徐可可 , 彭政华 , 罗钰 , 黄森

IPC: G06F40/30 , G06F16/33 , G06F18/214 , G06F18/2415

Abstract: 本发明公开了基于感知和语义关联性的文本识别模型可靠性正则方法，包括：利用语义上下文无关的识别模型和预训练语言模型分别获取感知关联序列集和语义关联序列集，构建实例特定的关联序列集；根据关联序列集，联合利用感知和语义关联序列平滑目标序列的损失，以实现更加有效的序列可靠性正则；构建调制函数，根据样本的难易程度自适应调整校准强度，以实现自适应细粒度序列可靠性正则；引入全局平滑因子，联合预测序列与标签序列的KL散度，构建全局校准损失函数，以实现总体的序列可靠性正则；利用最终损失重新训练待校准训练模型，最后得到校准的场景文本识别模型，用于输出预测文本序列及校准的置信度。

5.

发明授权
基于CTC解码器的文本序列识别模型校准方法有权

公开(公告)号：CN114495114B

公开(公告)日：2022-08-05

申请号：CN202210402975.1

申请日：2022-04-18

Applicant: 华南理工大学 , 人工智能与数字经济广东省实验室(广州)

Inventor： 黄双萍 , 罗钰 , 徐可可

IPC: G06V30/19 , G06V30/26 , G06K9/62

Abstract: 本发明公开了基于CTC解码器的文本序列识别模型校准方法，包括：将文本图像支撑集输入至待校准训练模型中，获得文本序列识别结果；利用文本图像支撑集的文本序列识别结果计算上下文混淆矩阵，上下文混淆矩阵用于表征序列中相邻时刻预测字符之间的上下文分布关系；根据上下文混淆矩阵，利用上下文相关预测分布对标签平滑中平滑强度有选择性地进行自适应的变化，以实现序列置信度的自适应校准；基于上下文选择性损失函数重新训练待校准训练模型，输出预测文本序列及校准的置信度。本发明方法将标签平滑扩展到基于CTC解码器的文本序列识别模型上，引入序列间上下文关系，对预测序列进行自适应的校准，使得模型输出预测文本置信度能够更加精准。

Patent Agency Ranking