-
公开(公告)号:CN111860506B
公开(公告)日:2024-03-29
申请号:CN202010721524.5
申请日:2020-07-24
申请人: 北京百度网讯科技有限公司
IPC分类号: G06V20/62 , G06V30/148 , G06V30/19
摘要: 本申请公开了一种识别文字的方法和装置,涉及人工智能技术领域、计算机视觉技术领域、知识图谱技术领域和自然语言处理技术领域。方法包括:获取输入图像的文字区域的以下图像:文字中心线图、文字方向偏移图、文字边界偏移图、文字字符分类图;从文字中心线图中提取字符中心的特征点的坐标;基于文字方向偏移图,排序字符中心的特征点的坐标,得到字符中心的特征点的坐标序列;根据字符中心的特征点的坐标序列和文字边界偏移图,确定文字区域的多边形包围框;根据字符中心的特征点的坐标序列和文字字符分类图,确定字符中心的特征点的分类结果。该方法可以对输入图像中任意方向的文字进行识别,提高了文字的识别效率和准确率。
-
公开(公告)号:CN114724144B
公开(公告)日:2024-02-09
申请号:CN202210531978.5
申请日:2022-05-16
申请人: 北京百度网讯科技有限公司
IPC分类号: G06V30/16 , G06V30/164 , G06V10/82 , G06N3/04 , G06N3/088
摘要: 本公开提供了文本识别方法、用于文本识别的模型的训练方法、装置、电子设备、存储介质以及程序产品,涉及人工智能技术领域,尤其涉及深度学习、图像处理、计算机视觉技术领域,可应用于OCR等场景。具体实现方案为:对待处理图像进行文本检测处理,得到目标待处理图像;对目标待处理图像进行降噪重建处理,得到目标重建图像;从目标待处理图像和目标重建图像中确定目标图像;以及对目标图像进行文本识别处理,得到识别结果。
-
公开(公告)号:CN111539438B
公开(公告)日:2024-01-12
申请号:CN202010349150.9
申请日:2020-04-28
申请人: 北京百度网讯科技有限公司
IPC分类号: G06V30/148 , G06V30/14
摘要: 本申请公开了一种文本内容的识别方法、装置及电子设备,涉及计算机技术领域中的文本识别技术。具体实现方案为:获取表盘图片;检测所述表盘图片中的至少一根文本中心线以及与每一文本中心线对应的包围框;基于所述至少一根文本中心线以及与每一文本中心线对应的包围框,识别所述表盘图片中的每一行文本的文本内容。这样,电子设备可以准确且快速地识别表盘图片中的文本内容,从而提升仪表盘的计量内容的识别准确度以及效率。
-
公开(公告)号:CN111507355B
公开(公告)日:2023-08-22
申请号:CN202010307924.1
申请日:2020-04-17
申请人: 北京百度网讯科技有限公司
IPC分类号: G06V30/148
摘要: 本申请公开了一种字符识别方法、装置、设备和存储介质,涉及字符识别技术领域。具体实现方案为:获取待识别对象中目标字符位置的第一视觉特征;依据所述第一视觉特征生成所述目标字符位置的语义特征;基于所述第一视觉特征和所述语义特征,识别所述目标字符位置的字符。本申请可以提高字符识别的效果。
-
公开(公告)号:CN114998906B
公开(公告)日:2023-08-08
申请号:CN202210583992.X
申请日:2022-05-25
申请人: 北京百度网讯科技有限公司
摘要: 本公开提供了文本检测方法、深度学习模型的训练方法、装置、电子设备、存储介质以及程序产品,涉及人工智能技术领域,尤其涉及深度学习、图像处理、计算机视觉技术领域,可应用于OCR等场景。具体实现方案为:对待检测图像进行图像特征提取,得到全局特征图;对全局特征图进行分类,得到分类结果;基于分类结果,从多个检测模式中确定目标检测模式;以及按照目标检测模式处理全局特征图,得到待检测图像的文本检测结果。
-
公开(公告)号:CN114842474B
公开(公告)日:2023-08-08
申请号:CN202210503483.1
申请日:2022-05-09
申请人: 北京百度网讯科技有限公司
摘要: 本公开提供了一种文字识别方法、装置、电子设备和介质,涉及人工智能技术领域,尤其涉及文本识别技术领域。实现方案为:在第一图像中获取包含待识别的文本行的第一区域;对第一区域进行单字检测,以确定文本行中的每一个单字对应的第一位置信息;基于第一位置信息,确定每一个单字对应的类别;基于类别,确定第一区域中的块区域以及块区域对应的第二位置信息;基于块区域以及对应的第二位置信息,生成第二图像;以及对第二图像进行文字识别。
-
公开(公告)号:CN114120305B
公开(公告)日:2023-07-07
申请号:CN202111425339.2
申请日:2021-11-26
申请人: 北京百度网讯科技有限公司
IPC分类号: G06V20/62 , G06V30/146 , G06V30/148 , G06V10/774 , G06V10/82 , G06N3/0464
摘要: 本公开提供了一种文本分类模型的训练方法、文本内容的识别方法及装置,涉及人工智能技术领域,具体为深度学习、计算机视觉技术领域,可应用于光学字符识别、文字识别等场景,训练方法包括:获取待训练图像集合,待训练图像集合中包括至少一个样本图像,根据每一样本图像,确定每一样本图像中每一文本行的预测位置信息和预测的属性信息,依据每一样本图像的每一文本行的标注位置信息和标注的属性信息、以及每一样本图像中每一文本行的预测位置信息和预测的属性信息,训练得到文本分类模型,文本分类模型用于检测待识别图像中每一文本行的属性信息,提高训练的准确性,使得在基于文本分类模型对文本行的属性信息进行确定时,提高分类的可靠性。
-
公开(公告)号:CN116052181A
公开(公告)日:2023-05-02
申请号:CN202211732802.2
申请日:2022-12-30
申请人: 北京百度网讯科技有限公司
IPC分类号: G06V30/146 , G06V30/14
摘要: 本公开提供了一种图像方向的确定方法、装置、电子设备和介质,涉及深度学习、图像处理、计算机视觉技术领域,可应用于OCR等场景。实现方案为:从待识别图像中提取至少一个文本行区域,将各文本行区域旋转第一设定角度,并从旋转后的各文本行区域中提取设定个数的第一文本行区域;获取各第一文本行区域的字符识别的第一置信度;将各第一文本行区域旋转第二设定角度,并获取旋转后的各第一文本行区域的字符识别的第二置信度;根据各第一置信度和各第二置信度,确定待识别图像的方向。由此,仅根据待识别图像中的部分文本行区域,确定待识别图像的方向,而无需根据待识别图像中的所有像素点,来预测待识别图像的方向,可以提升计算速度。
-
公开(公告)号:CN115471840B
公开(公告)日:2023-04-18
申请号:CN202211365130.6
申请日:2022-11-03
申请人: 北京百度网讯科技有限公司
IPC分类号: G06V30/10 , G06V30/196 , G06V10/82 , G06N3/0464 , G06N3/044 , G06N3/084
摘要: 本发明提供了一种生成、模型的训练、识别方法、装置、电子设备及介质,涉及人工智能技术领域,尤其涉及深度学习、图像处理、计算机视觉技术领域,可应用于光学字符识别等场景。具体实现方案为:对第一文本图像中的字符串进行字符处理操作,得到第一中间字符串,其中,第一中间字符串的宽度与预定有效字符宽度之间的关系满足第一预定条件,预定有效字符宽度是根据第一文本图像的尺寸与预定系数确定的;在确定第一中间字符串的宽度与第一文本图像的尺寸之间不满足第二预定条件的情况下,对第一中间字符串进行占位符处理操作,得到用于作为样本数据的目标字符串,其中,目标字符串的宽度与第一文本图像的尺寸之间的关系满足第二预定条件。
-
公开(公告)号:CN114359903B
公开(公告)日:2023-04-07
申请号:CN202210013633.0
申请日:2022-01-06
申请人: 北京百度网讯科技有限公司
摘要: 本公开提供了一种文本识别方法、装置、设备及存储介质,涉及人工智能技术领域,具体为深度学习、计算机视觉技术领域,可应用于OCR等场景。具体实现方案为:获得待识别文本图像的第一特征图;针对每一目标特征单元,基于该目标特征单元中的各个特征值,对该目标特征单元中的每一特征值进行特征增强处理,其中,目标特征单元为:第一特征图中沿特征增强方向的特征单元;基于增强处理后的第一特征图,对待识别文本图像进行文本识别。应用本公开实施例提供的文本识别方案,能够实现文本识别。
-
-
-
-
-
-
-
-
-