一种图像文本检测方法及系统、用户终端及服务器

    公开(公告)号:CN107977592B

    公开(公告)日:2022-11-01

    申请号:CN201610921016.5

    申请日:2016-10-21

    摘要: 本发明实施例提供了一种图像文本检测方法及系统、用户终端及服务器;该方法包括:用户终端获取多个显著性图像,生成候选文本连通构件;服务器根据候选文本连通构件获取文本连通部件,将文本连通部件视作节点,连接近邻节点对构成无向图,对无向图中有公共节点的边依次进行融合,获得多个文本行;用户终端对多个文本行进行交叠融合,生成图像文本检测结果;服务器对图像文本检测结果进行识别得到最终文本;用户终端输出最终文本。本发明通过基于显著性模型的文件检测和根据无向图每条边的局部特征和全局特征进行分类得到文本行,提高了图像文本检测效率,降低了计算复杂度。

    一种图像文本检测方法及系统、用户终端及服务器

    公开(公告)号:CN107977592A

    公开(公告)日:2018-05-01

    申请号:CN201610921016.5

    申请日:2016-10-21

    IPC分类号: G06K9/00 G06K9/34 G06K9/62

    摘要: 本发明实施例提供了一种图像文本检测方法及系统、用户终端及服务器;该方法包括:用户终端获取多个显著性图像,生成候选文本连通构件;服务器根据候选文本连通构件获取文本连通部件,将文本连通部件视作节点,连接近邻节点对构成无向图,对无向图中有公共节点的边依次进行融合,获得多个文本行;用户终端对多个文本行进行交叠融合,生成图像文本检测结果;服务器对图像文本检测结果进行识别得到最终文本;用户终端输出最终文本。本发明通过基于显著性模型的文件检测和根据无向图每条边的局部特征和全局特征进行分类得到文本行,提高了图像文本检测效率,降低了计算复杂度。

    文档实体及关系抽取方法、装置及存储介质

    公开(公告)号:CN116152841A

    公开(公告)日:2023-05-23

    申请号:CN202310425886.3

    申请日:2023-04-20

    摘要: 本申请提供一种文档实体及关系抽取方法、装置及存储介质,属于计算机视觉和自然语言处理技术领域,该方法包括:确定图结构的顶点的视觉特征和所述图结构的边的视觉特征;所述图结构以文档中的实体为顶点,以所述实体的外接框之间的连线为边;基于所述顶点的视觉特征和所述边的视觉特征确定文档实体信息;所述文档实体信息包括文档中的实体的布局关系、所述实体的类别信息和所述实体之间的语义关系。本申请实施例提供的文档实体及关系抽取方法、装置及存储介质,基于图结构中顶点的视觉特征和边的视觉特征进行顶点分类和边分类,获得文档实体的布局关系、实体类别和实体间的语义关系,使得视觉富文档实体信息的提取更加全面和准确。

    基于图半监督学习的文档二值化处理方法、系统、装置

    公开(公告)号:CN109460735A

    公开(公告)日:2019-03-12

    申请号:CN201811334371.8

    申请日:2018-11-09

    IPC分类号: G06K9/00 G06K9/34

    摘要: 本发明属于模式识别领域,具体涉及一种基于图半监督学习的文档二值化处理方法、系统、装置,旨在为了解决古籍文档文本识别准确度较低的问题。本发明方法包括:获取待处理的图像;降采样和k近邻法构图;基于分别从前景和背景中选取样本点作为标记的种子点;采用图半监督学习方法进行结点分类;基于前景结点进行图像恢复;对恢复后的图像进行二值化,得到二值化的图像。本发明可以较好地保留文字的纤细笔画,不仅提提高了文字识别的准确度、也提高了文字细节识别的准确度,对于光照不均和背景复杂的图像也有较好的鲁棒性,同时降采样提高了半监督学习算法求解过程的运行速度。

    用于目标图像分割的全局阈值分割方法

    公开(公告)号:CN102819841B

    公开(公告)日:2015-01-28

    申请号:CN201210266562.1

    申请日:2012-07-30

    IPC分类号: G06T7/00

    摘要: 本发明公开了一种用于目标图像分割的全局阈值分割方法,包括:在总阈值区间内连续改变阈值,得到与阈值对应的目标窗口集合上的0阶类点数的最大值所对应的阈值,得到以该阈值为端点的一个优化阈值区间,其中0阶类点表示环绕指标等于0的像素点,环绕指标定义为在阈值图像的前景像素点的3×3像素的邻域内,除该前景像素点之外的其他所有前景像素点的个数除以2再取整后的值;在所述优化阈值区间上计算光滑性算子SD(3,t)曲线的极值点,若其超过2个,则只保留最大的两个SD(3,t)值所对应的极值点t31、t32;计算完整性算子SN(2,t31)和SN(2,t32),将其中较大的值所对应的阈值作为最优阈值,并输出该最优阈值对应的阈值图像。

    用于目标图像分割的全局阈值分割方法

    公开(公告)号:CN102819841A

    公开(公告)日:2012-12-12

    申请号:CN201210266562.1

    申请日:2012-07-30

    IPC分类号: G06T7/00

    摘要: 本发明公开了一种用于目标图像分割的全局阈值分割方法,包括:在总阈值区间内连续改变阈值,得到与阈值对应的目标窗口集合上的0阶类点数的最大值所对应的阈值,得到以该阈值为端点的一个优化阈值区间,其中0阶类点表示环绕指标等于0的像素点,环绕指标定义为在阈值图像的前景像素点的3×3像素的邻域内,除该前景像素点之外的其他所有前景像素点的个数除以2再取整后的值;在所述优化阈值区间上计算光滑性算子SD(3,t)曲线的极值点,若其超过2个,则只保留最大的两个SD(3,t)值所对应的极值点t31、t32;计算完整性算子SN(2,t31)和SN(2,t32),将其中较大的值所对应的阈值作为最优阈值,并输出该最优阈值对应的阈值图像。

    文档实体及关系抽取方法、装置及存储介质

    公开(公告)号:CN116152841B

    公开(公告)日:2024-09-24

    申请号:CN202310425886.3

    申请日:2023-04-20

    摘要: 本申请提供一种文档实体及关系抽取方法、装置及存储介质,属于计算机视觉和自然语言处理技术领域,该方法包括:确定图结构的顶点的视觉特征和所述图结构的边的视觉特征;所述图结构以文档中的实体为顶点,以所述实体的外接框之间的连线为边;基于所述顶点的视觉特征和所述边的视觉特征确定文档实体信息;所述文档实体信息包括文档中的实体的布局关系、所述实体的类别信息和所述实体之间的语义关系。本申请实施例提供的文档实体及关系抽取方法、装置及存储介质,基于图结构中顶点的视觉特征和边的视觉特征进行顶点分类和边分类,获得文档实体的布局关系、实体类别和实体间的语义关系,使得视觉富文档实体信息的提取更加全面和准确。

    手写汉字书写质量评价方法及系统

    公开(公告)号:CN109543777B

    公开(公告)日:2020-10-27

    申请号:CN201811433192.X

    申请日:2018-11-28

    IPC分类号: G06K9/68 G06K9/34

    摘要: 本发明涉及一种手写汉字书写质量评价方法及系统,所述评价方法包括:获取待评价手写汉字图像;去除所述待评价手写汉字图像中的田字格,得到字体图像;对所述字体图像进行灰度化处理,得到灰度图像;对所述灰度图像进行透视化处理得到变换图像;将变换图像分割成多个单个的汉字;通过卷积神经网络对各个汉字进行评价,确定待评价手写汉字图像的书写质量。本发明通过待评价手写汉字图像依次进行去除田字格处理、灰度处理、透视化处理、分割处理,通过卷积神经网络对单个汉字进行评价,从而确定待评价手写汉字图像的书写质量,整个过程减少人为的参与,全程机器化、全自动处理,从而可提高书写质量评价的准确性。

    手写汉字书写质量评价方法及系统

    公开(公告)号:CN109543777A

    公开(公告)日:2019-03-29

    申请号:CN201811433192.X

    申请日:2018-11-28

    IPC分类号: G06K9/68 G06K9/34

    摘要: 本发明涉及一种手写汉字书写质量评价方法及系统,所述评价方法包括:获取待评价手写汉字图像;去除所述待评价手写汉字图像中的田字格,得到字体图像;对所述字体图像进行灰度化处理,得到灰度图像;对所述灰度图像进行透视化处理得到变换图像;将变换图像分割成多个单个的汉字;通过卷积神经网络对各个汉字进行评价,确定待评价手写汉字图像的书写质量。本发明通过待评价手写汉字图像依次进行去除田字格处理、灰度处理、透视化处理、分割处理,通过卷积神经网络对单个汉字进行评价,从而确定待评价手写汉字图像的书写质量,整个过程减少人为的参与,全程机器化、全自动处理,从而可提高书写质量评价的准确性。

    基于非监督关键二元词串提取的微博文本自动摘要方法

    公开(公告)号:CN104216875A

    公开(公告)日:2014-12-17

    申请号:CN201410502810.7

    申请日:2014-09-26

    IPC分类号: G06F17/27 G06F17/30

    摘要: 一种基于非监督关键二元词串提取的微博文本自动摘要方法,包括:微博预处理;二元词串标准化;基于混合TF-IDF、TextRank和LDA的关键二元词串提取;基于交集相似度和互信息策略的句子排序;基于相似度阈值的摘要句抽取;以及合理组合摘要句以生成摘要。本发明以二元词串作为最小词汇单元,而二元词串比词语具备更丰富的上下文信息,因此基于关键二元词串比基于关键词抽取的句子抗噪性更强,准确率更高。同时,提取摘要句时引入相似度阈值控制冗余,因此摘要具备更高的召回率。本方法生成的摘要准确、简洁、全面,显著提高了用户获取知识的效率和质量,节省了用户大量时间。