一种文字图像书写轨迹恢复效果判别方法

    公开(公告)号:CN114511853B

    公开(公告)日:2022-07-12

    申请号:CN202210417388.X

    申请日:2022-04-21

    Abstract: 本发明公开了一种文字图像书写轨迹恢复效果判别方法,包括:对原始文字图像进行掩膜化操作并二值化处理得到输入图像掩膜;将恢复轨迹渲染得到恢复轨迹掩膜;恢复轨迹掩膜逐步进行多次膨胀操作,得到多个膨胀掩膜;采用交并比计算方法,分别计算恢复轨迹掩膜以及多个膨胀掩膜与输入图像掩膜的IoU分数;计算出的数值最大的IoU分数作为DloU分数,所述DloU分数为最终判别结果。本发明方法设计交并比计算方法,计算输入图像掩膜和恢复轨迹掩膜的相似度,设计动态膨胀机制,将恢复轨迹掩膜和膨胀掩膜分别与输入图像掩膜计算交并比分数,使用动态交并比分数消除输入文字图像笔画宽度对字形保真程度评价的影响。

    基于全局追踪解码的文字图像书写轨迹恢复方法

    公开(公告)号:CN114757969A

    公开(公告)日:2022-07-15

    申请号:CN202210363417.9

    申请日:2022-04-08

    Abstract: 本发明公开了基于全局追踪解码的文字图像书写轨迹恢复方法,包括以下步骤:将文字图像调整为预设尺寸并进行二值化处理;构建卷积循环神经编码网络;构建全局追踪解码网络,所述的全局追踪解码网络的输入为编码特征Z,输出为预测文字书写轨迹序列;联合训练卷积循环神经编码网络和全局追踪解码网络,获得文字图像书写轨迹恢复网络模型;利用训练完成的文字图像书写轨迹恢复网络模型进行书写轨迹恢复。本发明方法在解码的过程中,设置全局追踪解码机制,在每个解码时刻,加入编码特征作为RNN解码器的输入,有助于解码器在整个轨迹序列的预测过程中都能对全局文字特征进行持续追踪,缓解轨迹序列偏移问题,有效提升文字图像书写轨迹的恢复性能。

    一种全线表表格结构识别方法

    公开(公告)号:CN114529925A

    公开(公告)日:2022-05-24

    申请号:CN202210425844.5

    申请日:2022-04-22

    Abstract: 本发明公开了一种全线表表格结构识别方法,包括:采用实例分割算法对文档图像进行单元格分割,得到每一个单元格对应于文档图像中单元格所在区域的二值化掩码图像;将每一个单元格的二值化掩码图像进行或运算和形态学闭操作,得到表格整体区域图像及表格整体区域图像的二值化掩码图像;采用矫正算法,在获得表格整体区域图像中表格区域的四个顶点后,利用TPS变换以这四个顶点为基准将弯曲表格修正为以这四个顶点为顶点的近似四边形表格区域,并使用透视变换将近似四边形表格区域转换成水平矩形的正表格图像;进行单元格目标检测获得每一个单元格的边界框;利用基于规则化排序算法进行排序以识别表格结构,将表格结构表达成对应的标记语言描述。

    一种全线表表格结构识别方法

    公开(公告)号:CN114529925B

    公开(公告)日:2022-07-15

    申请号:CN202210425844.5

    申请日:2022-04-22

    Abstract: 本发明公开了一种全线表表格结构识别方法,包括:采用实例分割算法对文档图像进行单元格分割,得到每一个单元格对应于文档图像中单元格所在区域的二值化掩码图像;将每一个单元格的二值化掩码图像进行或运算和形态学闭操作,得到表格整体区域图像及表格整体区域图像的二值化掩码图像;采用矫正算法,在获得表格整体区域图像中表格区域的四个顶点后,利用TPS变换以这四个顶点为基准将弯曲表格修正为以这四个顶点为顶点的近似四边形表格区域,并使用透视变换将近似四边形表格区域转换成水平矩形的正表格图像;进行单元格目标检测获得每一个单元格的边界框;利用基于规则化排序算法进行排序以识别表格结构,将表格结构表达成对应的标记语言描述。

    一种文字图像书写轨迹恢复效果判别方法

    公开(公告)号:CN114511853A

    公开(公告)日:2022-05-17

    申请号:CN202210417388.X

    申请日:2022-04-21

    Abstract: 本发明公开了一种文字图像书写轨迹恢复效果判别方法,包括:对原始文字图像进行掩膜化操作并二值化处理得到输入图像掩膜;将恢复轨迹渲染得到恢复轨迹掩膜;恢复轨迹掩膜逐步进行多次膨胀操作,得到多个膨胀掩膜;采用交并比计算方法,分别计算恢复轨迹掩膜以及多个膨胀掩膜与输入图像掩膜的IoU分数;计算出的数值最大的IoU分数作为DloU分数,所述DloU分数为最终判别结果。本发明方法设计交并比计算方法,计算输入图像掩膜和恢复轨迹掩膜的相似度,设计动态膨胀机制,将恢复轨迹掩膜和膨胀掩膜分别与输入图像掩膜计算交并比分数,使用动态交并比分数消除输入文字图像笔画宽度对字形保真程度评价的影响。

    基于全局追踪解码的文字图像书写轨迹恢复方法

    公开(公告)号:CN114757969B

    公开(公告)日:2023-04-07

    申请号:CN202210363417.9

    申请日:2022-04-08

    Abstract: 本发明公开了基于全局追踪解码的文字图像书写轨迹恢复方法,包括以下步骤:将文字图像调整为预设尺寸并进行二值化处理;构建卷积循环神经编码网络;构建全局追踪解码网络,所述的全局追踪解码网络的输入为编码特征Z,输出为预测文字书写轨迹序列;联合训练卷积循环神经编码网络和全局追踪解码网络,获得文字图像书写轨迹恢复网络模型;利用训练完成的文字图像书写轨迹恢复网络模型进行书写轨迹恢复。本发明方法在解码的过程中,设置全局追踪解码机制,在每个解码时刻,加入编码特征作为RNN解码器的输入,有助于解码器在整个轨迹序列的预测过程中都能对全局文字特征进行持续追踪,缓解轨迹序列偏移问题,有效提升文字图像书写轨迹的恢复性能。

    基于空间位置与场景关联的文本检测识别模型校准方法

    公开(公告)号:CN119516530B

    公开(公告)日:2025-05-09

    申请号:CN202411580630.0

    申请日:2024-11-07

    Abstract: 本发明公开了基于空间位置与场景关联的文本检测识别模型校准方法,包括:根据目标文本序列的似然最大化和目标位置的绝对距离最小化对端到端文本检测识别模型进行监督获得识别损失;通过文本关联序列挖掘模型构建文本关联序列集;通过空间位置平滑方法构建文本平滑位置集;根据文本关联序列集联合正则内容损失实现文本内容置信度校准;根据文本平滑位置集联合正则位置损失实现文本位置置信度校准;引入全局校准强度系数联合正则内容损失和正则位置损失构建正则化损失函数,实现总体的可控性端到端置信度校准;联合识别损失和正则化损失得到最终损失以训练得到校准后的端到端文本检测识别模型,用于输出预测文本序列、位置及校准的置信度。

    基于感知和语义关联性的文本识别模型可靠性正则方法

    公开(公告)号:CN117151111A

    公开(公告)日:2023-12-01

    申请号:CN202311027442.0

    申请日:2023-08-15

    Abstract: 本发明公开了基于感知和语义关联性的文本识别模型可靠性正则方法,包括:利用语义上下文无关的识别模型和预训练语言模型分别获取感知关联序列集和语义关联序列集,构建实例特定的关联序列集;根据关联序列集,联合利用感知和语义关联序列平滑目标序列的损失,以实现更加有效的序列可靠性正则;构建调制函数,根据样本的难易程度自适应调整校准强度,以实现自适应细粒度序列可靠性正则;引入全局平滑因子,联合预测序列与标签序列的KL散度,构建全局校准损失函数,以实现总体的序列可靠性正则;利用最终损失重新训练待校准训练模型,最后得到校准的场景文本识别模型,用于输出预测文本序列及校准的置信度。

Patent Agency Ranking