一种票据图像文字识别方法及装置

    公开(公告)号:CN111444912A

    公开(公告)日:2020-07-24

    申请号:CN202010036382.9

    申请日:2020-01-14

    摘要: 本发明公开了一种票据图像文字识别方法及装置,可以获得目标票据图像;将目标票据图像输入至预设的目标文字区域确定模型中,确定目标票据图像中的目标文字区域;将目标票据图像转化为YUV色彩空间的待识别文字图像,将待识别文字图像中目标文字区域的对比度调高,将除目标文字区域外的区域的对比度调低,以使待识别文字图像中的目标文字区域的对比度高于待识别文字图像中的除目标文字区域外的对比度;将待识别文字图像输入至预设的文字识别模型中,获得目标文字区域中的文字内容。本发明通过准确定位目标文字区域,并调整目标文字区域对比度的技术方案,解决了票据图像分辨率低造成的文字识别准确率低的技术问题,进而提高了文字识别准确率。

    一种基于机器学习的非平衡数据集的处理方法和装置

    公开(公告)号:CN109635839A

    公开(公告)日:2019-04-16

    申请号:CN201811341167.9

    申请日:2018-11-12

    IPC分类号: G06K9/62

    摘要: 本发明实施例公开了一种基于机器学习的非平衡数据集的处理方法和装置,涉及数据处理的技术领域,能够解决SMOTE算法合成“人造”样本过程中造成的分布边缘化问题。该处理方法包括:一种基于机器学习的非平衡数据集的处理方法,包括:根据包含多个多数类图像样本的第一样本集合和包含多个少数类图像样本的初始的第二样本集合,生成中心样本,其中,所述多数类图像样本和所述少数类图像样本均包含有N维属性,所述中心样本是由多个所述多数类图像样本和多个所述少数类图像样本每个维度的属性的平均值组成,N≥1;在所述中心样本与至少一个所述少数类图像样本之间进行随机线性插值,生成新增少数类样本,得到利用所述新增少数类样本更新后的第二样本集合。