-
公开(公告)号:CN112329766B
公开(公告)日:2024-10-15
申请号:CN202011098938.3
申请日:2020-10-14
申请人: 北京三快在线科技有限公司
IPC分类号: G06V30/19 , G06V10/764 , G06V10/82 , G06N3/0464 , G06N3/048 , G06N3/08
摘要: 本申请实施例公开了一种文字识别方法、装置、电子设备及存储介质,该方法包括:通过标准卷积提取待识别图像的图像特征并扩展通道数,生成第一特征图;通过包括逐点组卷积和深度卷积的模块化结构对所述第一特征图进行特征提取处理,得到处理后特征图;对所述处理后特征图进行池化处理,得到池化特征图;将所述池化特征图作为所述模块化结构的输入,循环执行上述的模块化结构处理和池化处理,直至得到的池化特征图满足预设条件;对所述池化特征图进行标准卷积处理,得到编码结果;对所述编码结果进行解码,得到识别结果。本申请实施例在保证识别精度的前提下,降低了计算复杂度,提高了识别速度,而且降低了计算资源的消耗。
-
公开(公告)号:CN114332873A
公开(公告)日:2022-04-12
申请号:CN202111579413.6
申请日:2021-12-22
申请人: 北京三快在线科技有限公司
IPC分类号: G06V30/19 , G06V10/764 , G06V10/774 , G06V20/62 , G06K9/62
摘要: 本说明书公开了一种识别模型的训练方法及装置,通过从各文字识别的场景中,确定目标场景和其他场景,并将所述目标场景对应的各图像,作为各第一训练样本,针对每个其他场景,确定该其他场景对应的训练完成的识别模型,作为候选识别模型,针对每个第一训练样本,将该第一训练样本作为输入,输入至少一个候选识别模型,确定该第一训练样本的标注,将各第一训练样本输入待训练的目标识别模型中,得到目标识别模型输出的各目标识别结果,并基于各第一训练样本的标注和目标识别结果,对目标场景对应的目标识别模型进行训练。不需要人工对样本进行标注,减少了训练样本的生成时间与成本,提高了目标识别模型的训练效率。
-
公开(公告)号:CN112712079A
公开(公告)日:2021-04-27
申请号:CN202110019931.6
申请日:2021-01-07
申请人: 北京三快在线科技有限公司
摘要: 本申请公开了一种基于渐进式编码的文字识别方法,属于计算机技术领域,有助于提升图像中文字识别的准确率。所述文字识别方法包括:预先训练包括:级联的至少三个编码模块,以及,与每个所述编码模块对应的一个解码模块的编码‑解码网络模型,并在预测阶段,依次执行所述至少三个编码模块,对目标图像进行渐进深度的特征编码,分别得到每个所述编码模块的编码输出;分别执行每个所述解码模块,对相应所述编码模块的所述编码输出进行解码,得到各所述解码模块对所述目标图像的文字识别结果;对各所述解码模块对所述目标图像的文本识别结果进行融合处理,确定所述编码‑解码网络模型对所述目标图像的文字识别结果,提升了图像中的文字进行识别的准确率。
-
公开(公告)号:CN111899292A
公开(公告)日:2020-11-06
申请号:CN202010541723.8
申请日:2020-06-15
申请人: 北京三快在线科技有限公司
摘要: 本申请公开了文字识别方法、装置、电子设备及存储介质,该方法包括:提取目标图像的纹理特征;基于第一类注意力机制对纹理特征进行过滤,得到注意力增强特征,其中,第一类注意力机制包括空间注意力机制和/或通道注意力机制;基于第二类注意力机制和注意力增强特征得到文字识别结果,其中,第二类注意力机制包括互注意力机制。本申请的有益效果在于:将多种注意力机制有机结合应用于文字识别,能够快速识别字符特征,而不受文字排版的影响,显著提升文字识别的准确率,尤其对于不规则文字的识别,效果显著,且计算量小、计算速度快、可用性强、适用范围广。
-
公开(公告)号:CN111428593A
公开(公告)日:2020-07-17
申请号:CN202010172679.8
申请日:2020-03-12
申请人: 北京三快在线科技有限公司
摘要: 本申请公开了一种文字识别方法、装置、电子设备及存储介质,该方法包括:对目标图像进行纹理特征编码,生成第一特征序列;对第一特征序列进行解码,得到第一识别结果;基于递归神经网络对第一特征序列进行上下文互信息编码,生成第二特征序列;对第二特征序列进行解码,得到第二识别结果;根据第一识别结果和第二识别结果联合确定文字识别结果。本申请的有益效果在于,将文字本身特征与上下文互信息相结合,显著提高文字识别的准确率,且计算量小、计算速度快、可用性强。
-
公开(公告)号:CN114429575A
公开(公告)日:2022-05-03
申请号:CN202210037227.8
申请日:2022-01-13
申请人: 北京三快在线科技有限公司
IPC分类号: G06V10/774 , G06V30/148 , G06K9/62 , G06N3/04 , G06N3/08
摘要: 本说明书公开了一种识别模型的训练方法及训练装置,该识别模型的训练方法包括:获取各样本图像,所述各样本图像中包含有文字信息,将所述各样本图像输入到识别模型中,确定所述各样本图像中包含的各字符对应的字符特征图,通过所述识别模型将所述各字符对应的字符特征图投影到高维空间中,确定所述各字符对应的字符特征图在所述高维空间中的字符特征表示,以不同形态的相同字符的字符特征表示靠近同一特征中心,不同特征中心在所述高维空间中的距离越远为优化目标,调整不同特征中心在所述高维空间中的位置,以对所述识别模型进行训练,其中,所述高维空间的不同特征中心对应不同的字符。
-
公开(公告)号:CN113988316A
公开(公告)日:2022-01-28
申请号:CN202111340905.X
申请日:2021-11-12
申请人: 北京三快在线科技有限公司
摘要: 本申请公开了一种对机器学习模型训练的方法和装置,属于人工智能领域。所述方法包括:获取第一样本图像、第二样本图像和所述第二样本图像对应的基准识别结果;对所述第一样本图像进行图像变化处理得到第三样本图像;基于待训练的图像字符识别模型和所述第一样本图像,确定第一识别结果,基于所述待训练的图像字符识别模型和所述第二样本图像,确定第二识别结果,基于所述待训练的图像字符识别模型和所述第三样本图像,确定第三识别结果;基于所述第一识别结果、所述第二识别结果、所述第三识别结果和所述基准识别结果,对所述待训练的图像字符识别模型进行参数调整。采用本申请,可以减少标注样本数据耗费的大量人力和时间。
-
公开(公告)号:CN112699882A
公开(公告)日:2021-04-23
申请号:CN202110020629.2
申请日:2021-01-07
申请人: 北京三快在线科技有限公司
摘要: 本申请公开了一种图像文字识别方法,属于计算机技术领域,有助于提升图像中文字识别的准确率。所述图像文字识别方法包括:将预先训练的编码‑解码网络模型应用于在线识别过程中,编码‑解码网络模型包括:至少两个编码模块、与每个所述编码模块对应的解码模块的,其中,每个编码模块用于从不同特征维度对输入图像进行编码,所述方法通过执行至少两个编码模块,对输入图像特征编码,分别得到每个编码模块的编码输出;分别执行每个解码模块,对相应编码模块的编码输出进行解码,得到各解码模块对输入图像的解码输出;对各解码模块对输入图像的解码输出,进行融合处理,确定所述编码‑解码网络模型对所述输入图像的文字识别结果。
-
公开(公告)号:CN110765870B
公开(公告)日:2021-01-12
申请号:CN201910883642.3
申请日:2019-09-18
申请人: 北京三快在线科技有限公司
摘要: 本公开提供了一种OCR识别结果的置信度确定方法、装置及电子设备,该方法包括:将待识别图像输入到预先训练好的卷积神经网络中,得到多组输出结果;判断多组输出结果所包含的多个字符识别结果中,有效字符识别结果的数量是否大于预设数量;如果有效字符识别结果的数量小于预设数量,将0确定为OCR识别结果的置信度;如果有效字符识别结果的数量大于预设数量,通过归一化有效逻辑回归矩阵,得到有效字符识别结果中各个字符对应的概率值;并将所得到的概率值中最小的概率值确定为OCR识别结果的置信度。可见,通过本公开的实施例,在得到OCR识别结果的同时,还得到OCR识别结果的置信度,从而可以通过OCR识别结果的置信度来评估OCR识别结果的可靠程度。
-
公开(公告)号:CN112070833A
公开(公告)日:2020-12-11
申请号:CN202010790386.6
申请日:2020-08-07
申请人: 北京三快在线科技有限公司
摘要: 本申请公开了一种招牌地图生成方法、装置和路径规划方法、装置,所述招牌地图生成方法包括:获取目标区域的图像序列;从所述图像序列中识别出关注点招牌帧;确定图像序列中各帧的相机位姿,根据各帧的相机位姿生成目标区域的路网图,并根据所述关注点招牌帧的相机位姿在所述路网图中标记出相应的关注点;根据所述路网图和各关注点的招牌图像生成招牌地图。本申请的招牌地图生成方法以招牌图像为主要数据生成室内地图,它可以绕过多个传统室内建图算法在技术上和运营上的难点,可以成为用户线下体验的入口,实现用户消费行为的线上化、数字化。
-
-
-
-
-
-
-
-
-