一种模型训练的方法以及装置
    1.
    发明公开

    公开(公告)号:CN113011428A

    公开(公告)日:2021-06-22

    申请号:CN202110289276.6

    申请日:2021-03-18

    IPC分类号: G06K9/34 G06K9/32 G06K9/62

    摘要: 本说明书公开了一种模型训练的方法以及装置,获取各待标注图像,针对每个待标注图像,将该待标注图像输入到待训练的文字行识别模型中,得到文字行识别结果,以及将该待标注图像输入到预设的单字识别模型中,得到单字识别结果。而后,根据单字识别结果,对文字行识别结果进行校正,得到校正后文字行识别结果。最后,根据校正后文字行识别结果,对该待标注图像进行标注,得到标注后图像,通过标注后图像,对待训练的文字行识别模型进行模型训练。本方法将单字识别结果和文字行识别结果进行结合,可以有效的提高数据标注的准确性,从而使得文字行识别模型的准确率提高。

    一种训练模型以及字符检测的方法及装置

    公开(公告)号:CN113205095A

    公开(公告)日:2021-08-03

    申请号:CN202110392490.4

    申请日:2021-04-13

    IPC分类号: G06K9/34 G06K9/62

    摘要: 本说明书公开了一种训练模型以及字符检测的方法及装置。基于合成训练样本对标注模型进行训练,根据训练后的标注模型的输出对真实训练样本进行标注,并根据合成训练样本对字符检测模型进行训练。通过训练后的字符检测模型对待检测的图像进行特征提取,并确定该图像中各字符的包围框以及该图像中的各中心线。以及根据各中心线与各包围框的重叠程度、与同一中心线重叠的各包围框,确定包围框组,并根据各包围框组中各包围框的几何位置特征,对各中心线向周围进行膨胀得到各膨胀包围框,作为该图像的字符检测结果。可通过训练得到的字符检测模型输出准确的包围框以及中心线,以确定出准确的膨胀包围框,作为字符检测结果。

    一种训练样本的生成方法及生成装置

    公开(公告)号:CN113011424A

    公开(公告)日:2021-06-22

    申请号:CN202110230635.0

    申请日:2021-03-02

    IPC分类号: G06K9/34 G06K9/32 G06K9/62

    摘要: 本说明书公开了一种训练样本的生成方法及生成装置,获取待标注图像以及待标注图像对应的文本标注信息,并将待标注图像输入到预设的识别模型中,得到针对待标注图像中包含的文本行的整体识别结果,作为第一识别结果,以及针对待标注图像中包含的至少部分单个文字的单字识别结果,作为第二识别结果。而后,根据第一识别结果以及第二识别结果,确定针对待标注图像除文本标注信息外的其他标注信息,作为补充标注信息,根据补充标注信息,对文本标注信息进行补充,得到补充后标注信息,并通过补充后标注信息生成待标注图像对应的训练样本,以通过训练样本对识别模型进行训练,从而有效率地产生训练样本。

    生成模型的方法、装置、可读存储介质及电子设备

    公开(公告)号:CN111898484A

    公开(公告)日:2020-11-06

    申请号:CN202010675753.8

    申请日:2020-07-14

    IPC分类号: G06K9/00 G06K9/62 G06N3/04

    摘要: 本公开涉及一种生成模型的方法、装置、可读存储介质及电子设备。方法包括:获取初始模型的至少一个目标初始网络层各自的初始参数矩阵和压缩比例;针对每一目标初始网络层,根据目标初始网络层的初始参数矩阵和压缩比例,对目标初始网络层进行压缩,以得到样本模型;获取样本数据集;根据样本数据集,对样本模型进行训练,以得到应用在样本数据集所属场景下的目标模型。如此,可以利用取值范围为大于0小于1的压缩比例对目标初始网络层进行压缩,使得压缩后的目标样本网络层中的参数数量小于初始网络层中的参数数量,进而减少了由目标样本网络层构成的样本模型的参数数量,使得目标模型的体积较小,有效地改善了目标模型的性能。

    一种文字生成方法、装置、存储介质及电子设备

    公开(公告)号:CN112966470A

    公开(公告)日:2021-06-15

    申请号:CN202110203216.8

    申请日:2021-02-23

    IPC分类号: G06F40/109 G06K9/46 G06K9/62

    摘要: 本说明书公开了一种文字生成方法、装置、存储介质及电子设备,本说明书实施例通过预先训练的文字生成模型,分别提取原始文字图像中文字的结构特征和指定文字图像中文字的效果特征。然后,将结构特征与效果特征进行融合,生成指定文字效果的文字图像。在此方法中,分别提取具有指定文字效果的文字图像中的效果特征和指定文字的结构特征后,将该效果特征与该结构特征相融合,可以避免生成的文字图像中文字样式不确定的问题。其中,文字样式包括文字结构和文字效果。

    文字识别方法、装置、存储介质及电子设备

    公开(公告)号:CN112183250A

    公开(公告)日:2021-01-05

    申请号:CN202010963512.3

    申请日:2020-09-14

    摘要: 本公开涉及一种文字识别方法、装置、存储介质及电子设备,该方法包括:通过对待识别图像中的文字进行定位检测,得到所述待识别图像中的文字框,其中,每一所述文字框中的文字具有同一行文方向;针对每一所述文字框,确定该文字框中文字的所述行文方向;并根据该文字框的所述行文方向,得到该文字框的文字识别结果。采用这种方法,不管待识别图像中的文字是何种字体类型、字号大小,也不管该待识别图像中的文字是何种行文方向以及采用了何种排版方式,都能检测得到该待识别图像中的文字框,并可以根据检测到的每一文字框的行文方向,得到对应行文方向的文字识别结果。因此这种方法可以针对任意版式的图像进行文字识别。

    一种多任务证件图像自动处理方法、装置、设备及可读存储介质

    公开(公告)号:CN110659646A

    公开(公告)日:2020-01-07

    申请号:CN201910775808.X

    申请日:2019-08-21

    发明人: 姜仟艺 张睿

    摘要: 本公开提供了一种多任务证件图像自动处理方法、装置、设备及可读存储介质,包括获取针对不同识别任务的证件样本图像集;标记样本图像集为标记训练样本集,并通过预设神经网络层进行训练,得到标记样本特征集后,输入多个预设分类检测任务进行训练,得到多个第一分类标签;计算多个第一分类标签与标记标签之间的多个损失值后,计算多个损失值的和为联合损失值;调整预设神经网络层以及预设分类检测任务中的训练参数并继续训练,直至联合损失值符合预设条件时停止训练,得到多任务证件识别模型;将待识别目标图像输入多任务证件识别模型,输出目标图像的第二分类标签。解决了现有技术中多任务图像识别需要多模型处理,成本高且效率低的问题。

    基于图像的字符识别方法、装置、设备及存储介质

    公开(公告)号:CN115019309A

    公开(公告)日:2022-09-06

    申请号:CN202210724527.3

    申请日:2022-06-23

    摘要: 本申请公开了一种基于图像的字符识别方法、装置、设备及存储介质,属于计算机技术领域。方法包括:对目标图像进行特征提取,得到视觉特征;对所述视觉特征进行识别,得到所述目标图像对应的多个候选识别结果,所述候选识别结果包括识别出的多个字符;确定所述多个候选识别结果中多个字符的语义相关性特征;基于所述多个候选识别结果中多个字符的语义相关性特征,从所述多个候选识别结果中确定所述目标图像的字符识别结果,该方法能够减少个别字符识别错误的情况,能够提高字符识别结果的准确率。

    文字识别方法、装置、电子设备及存储介质

    公开(公告)号:CN112329766A

    公开(公告)日:2021-02-05

    申请号:CN202011098938.3

    申请日:2020-10-14

    摘要: 本申请实施例公开了一种文字识别方法、装置、电子设备及存储介质,该方法包括:通过标准卷积提取待识别图像的图像特征并扩展通道数,生成第一特征图;通过包括逐点组卷积和深度卷积的模块化结构对所述第一特征图进行特征提取处理,得到处理后特征图;对所述处理后特征图进行池化处理,得到池化特征图;将所述池化特征图作为所述模块化结构的输入,循环执行上述的模块化结构处理和池化处理,直至得到的池化特征图满足预设条件;对所述池化特征图进行标准卷积处理,得到编码结果;对所述编码结果进行解码,得到识别结果。本申请实施例在保证识别精度的前提下,降低了计算复杂度,提高了识别速度,而且降低了计算资源的消耗。

    一种OCR识别结果的置信度确定方法、装置及电子设备

    公开(公告)号:CN110765870A

    公开(公告)日:2020-02-07

    申请号:CN201910883642.3

    申请日:2019-09-18

    发明人: 姜仟艺 宋祺 张睿

    IPC分类号: G06K9/00 G06K9/62 G06N3/04

    摘要: 本公开提供了一种OCR识别结果的置信度确定方法、装置及电子设备,该方法包括:将待识别图像输入到预先训练好的卷积神经网络中,得到多组输出结果;判断多组输出结果所包含的多个字符识别结果中,有效字符识别结果的数量是否大于预设数量;如果有效字符识别结果的数量小于预设数量,将0确定为OCR识别结果的置信度;如果有效字符识别结果的数量大于预设数量,通过归一化有效逻辑回归矩阵,得到有效字符识别结果中各个字符对应的概率值;并将所得到的概率值中最小的概率值确定为OCR识别结果的置信度。可见,通过本公开的实施例,在得到OCR识别结果的同时,还得到OCR识别结果的置信度,从而可以通过OCR识别结果的置信度来评估OCR识别结果的可靠程度。