基于深度学习的单点生成多边形的场景文本表征方法

    公开(公告)号:CN117636351A

    公开(公告)日:2024-03-01

    申请号:CN202311659093.4

    申请日:2023-12-04

    摘要: 本发明公开了一种基于深度学习的单点生成多边形的场景文本表征方法,包括以下步骤:1.将场景文字图像输入点检测器获取文本中心点。2.引入锚点生成模块,利用文本识别置信度获取以文本中心点为中心的最优的锚点。3.引入多边形生成模块,利用文本识别损失从最优锚点获取粗略的文本边界点。4.引入多边形校正模块,利用识别注意力图在水平方向上精细地校正边界点,获得进一步贴近文本的多边形框。本方法提出了一个简单而有效的模型,利用多粒度识别信息将点演化为多边形,并且提出的模型只需要单点注释和合成识别数据,没有带来任何额外的标注成本。