-
公开(公告)号:CN113312982B
公开(公告)日:2024-09-17
申请号:CN202110496989.X
申请日:2021-05-07
申请人: 珠海金山办公软件有限公司 , 北京金山办公软件股份有限公司
IPC分类号: G06V30/414 , G06V30/148 , G06F40/166
摘要: 本文公开一种文档还原处理方法、装置、计算机存储介质及终端,本发明实施例获取待处理图像;通过提取待处理图像中落入预设的颜色分量集范围的像素点组成待处理图像中文字部分所对应图像的第一二值图;提取待处理图像的第二二值图;根据待处理图像、第一二值图和第二二值图还原待检测印章区域中的印章图像与文字到新文档。通过对待检测印章区域中文字和印章图像的还原,提升了还原可编辑文档过程中印章区域的还原质量。
-
公开(公告)号:CN117745595B
公开(公告)日:2024-06-25
申请号:CN202410180642.8
申请日:2024-02-18
申请人: 珠海金山办公软件有限公司 , 北京金山办公软件股份有限公司 , 武汉金山办公软件有限公司
IPC分类号: G06T5/77 , G06N3/0455 , G06N3/08 , G06T3/4046 , G06T3/4053 , G06T5/50 , G06V10/42 , G06V10/82 , G06T5/60
摘要: 本申请涉及一种图像处理方法、装置、电子设备及存储介质,所述方法包括:获取携带有杂质的原始图像,并确定所述原始图像对应的原始特征图;根据所述原始特征图,生成所述原始图像对应的多个不同尺度的目标特征图;根据多个不同尺度的所述目标特征图,生成无杂质的目标图像。如此通过原始图像对应的多个不同尺度的目标特征图,可以生成无杂质的目标图像,其杂质去除的非常干净,不会存在杂质残留,并且能很好的保持原有图像彩色,还原干净、清晰的图像,杂质区域与非杂质区域不会存在色差。
-
公开(公告)号:CN117636361A
公开(公告)日:2024-03-01
申请号:CN202210977757.0
申请日:2022-08-15
申请人: 珠海金山办公软件有限公司 , 北京金山办公软件股份有限公司 , 武汉金山办公软件有限公司
IPC分类号: G06V30/19 , G06V30/18 , G06V10/40 , G06V10/762 , G06V10/764 , G06V10/82
摘要: 本发明实施例涉及一种文字属性识别方法、装置及存储介质,包括:从目标文档中提取出多个文本条图片,其中,每个所述文本条图片包含所述目标文档中的至少一个文本条,所述文本条为行文本,或,列文本;对多个所述文本条图片进行分类,得到至少一个图片类别,其中,同一所述图片类别中的文本条图片所包含文字的属性相同;针对每个所述图片类别,基于所述图片类别中至少一个所述文本条图片确定所述图片类别中所有文本条图片所包含文字的属性。由此,可以实现从文本条的层面先对文字属性进行分类,再针对每一类文字属性进行识别,从而提高识别的准确性。
-
公开(公告)号:CN117291152A
公开(公告)日:2023-12-26
申请号:CN202210692042.0
申请日:2022-06-17
申请人: 珠海金山办公软件有限公司 , 北京金山办公软件股份有限公司 , 武汉金山办公软件有限公司
IPC分类号: G06F40/154 , G06F40/174 , G06F40/18
摘要: 本发明公开了一种表格的提取方法和装置。该方法包括:识别图像中的待提取的原始表格,提取原始表格的单元格结构,其中,原始表格中的内容不可编辑;提取原始表格中的文本属性;将单元格结构和文本属性转换为超文本标记语言描述;解析超文本标记语言描述,得到目标表格,其中,目标表格中的内容可编辑。本发明解决了无法将图像中的表格数据转换为可编辑的表格数据的技术问题。
-
公开(公告)号:CN117151106A
公开(公告)日:2023-12-01
申请号:CN202210565809.3
申请日:2022-05-19
申请人: 珠海金山办公软件有限公司 , 北京金山办公软件股份有限公司 , 武汉金山办公软件有限公司
IPC分类号: G06F40/30 , G06F40/166 , G06N3/042 , G06N3/0464 , G06N3/08
摘要: 本发明实施例涉及一种文档大纲生成方法、装置、电子设备及存储介质,所述方法包括:从待识别文档中提取大纲条目集合;提取所述大纲条目集合中每个大纲条目的特征信息;基于每个所述大纲条目的特征信息,确定每个所述大纲条目的大纲级别以及大纲条目间的从属关系;基于每个所述大纲条目的大纲级别以及所述大纲条目间的从属关系,生成所述待识别文档的大纲。由此,可以实现智能地生成文档大纲。
-
公开(公告)号:CN112016341A
公开(公告)日:2020-12-01
申请号:CN201910449861.0
申请日:2019-05-28
申请人: 珠海金山办公软件有限公司 , 北京金山办公软件股份有限公司
摘要: 本发明实施例提供了一种文本图片矫正方法及装置,通过获取待矫正的文本图片,对文本图片进行文本行检测,得到各文本行在文本图片中的位置信息,根据各文本行的位置信息,计算各文本行对应于指定方向的偏转角度,根据各文本行对应于指定方向的偏转角度,基于预设数据统计策略,计算文本图片的矫正角度,基于矫正角度,旋转文本图片,得到矫正后的文本图片。整个文本图片的矫正角度是基于所有文本行的偏转角度计算得到的,矫正角度能够更为准确的反应各文本行的偏转,因此,在基于矫正角度对文本图片进行旋转时,能够保证尽可能多的文本行旋转至便于用户查看的方向,提高了矫正角度的准确性,矫正后的文本图片具有更为理想的矫正效果。
-
公开(公告)号:CN117668336A
公开(公告)日:2024-03-08
申请号:CN202211042633.X
申请日:2022-08-29
申请人: 珠海金山办公软件有限公司 , 北京金山办公软件股份有限公司 , 武汉金山办公软件有限公司
IPC分类号: G06F16/93 , G06F16/906 , G06F16/16 , G06V30/19 , G06V30/148 , G06V10/82
摘要: 本发明提供一种文档处理方法及装置,其中,该方法包括:拍摄目标文档,获取第一图片;基于第一图片,生成目标格式的第一文件,并基于第一图片,对第一文件进行分类,确定第一文件的第一类型;提取第一图片中的文字信息,并基于文字信息,确定第一文件的第二类型;第二类型是第一类型的子类型。本发明提供的文档处理方法及装置,通过拍摄目标文档,获取第一图片,基于第一图片进行粗分类,自动确定第一文件的第一类型,然后基于第一图片中的文字信息进行细分类,自动确定第一文件的第二类型,能更快速、高效地确定第一文件的第一类型和第二类型,能基于第一文件的第一类型和第二类型,对第一文件进行更高效的归类,能提高纸质文档归类的效率。
-
公开(公告)号:CN117475444A
公开(公告)日:2024-01-30
申请号:CN202210837800.3
申请日:2022-07-15
申请人: 珠海金山办公软件有限公司 , 北京金山办公软件股份有限公司 , 武汉金山办公软件有限公司
IPC分类号: G06V30/19 , G06V30/148 , G06V30/14 , G06V10/82 , G06N3/08 , G06V30/146
摘要: 本发明提供一种文本图像识别模型训练方法、文本图像识别方法和设备,涉及图像处理技术领域。该方法包括:在训练文本图像识别模型时,可以先获取多个竖排文本图像样本,以及各竖排文本图像样本对应的文本内容和文本朝向;将对多个竖排文本图像样本旋转得到的横向排布的多个目标竖排文本图像样本输入至初始文本图像识别模型中,得到各竖排文本图像样本对应的预测文本内容和预测文本朝向;根据各竖排文本图像样本对应的文本内容、文本朝向、预测文本内容以及预测文本朝向,对初始文本图像识别模型的模型参数进行更新,这样训练得到的文本图像识别模型可以准确地识别任意文本朝向的竖排文本图像,从而提高了识别结果的准确度。
-
公开(公告)号:CN115393883A
公开(公告)日:2022-11-25
申请号:CN202110571960.3
申请日:2021-05-25
申请人: 珠海金山办公软件有限公司 , 北京金山办公软件股份有限公司
IPC分类号: G06V30/416 , G06V30/19 , G06V10/82 , G06N3/04 , G06F40/126 , G06F40/151
摘要: 一种实现字符识别的方法、装置、计算机存储介质及终端,本发明实施例基于PDF文档获取包含预设数量个字符的字符图像,并对字符图像进行多字识别;多字识别的结果包含预设数量个字符的情况下,根据多字识别的结果确定PDF文档中包含的字符的最终识别结果。本发明实施例对PDF文件中的字符进行读取和渲染,可以确定字符图像在PDF中的具体对应哪个字符,在多字识别的结果包含预设数量个字符的情况下,实现了漏检或多检的快速确认,并根据多字识别的结果提升了字符识别的准确率;在之后将识别的结果转换的统一码(Unicode)附加到PDF的相应字符上,实现了PDF文档中包含的字符的准确识别。
-
公开(公告)号:CN113312982A
公开(公告)日:2021-08-27
申请号:CN202110496989.X
申请日:2021-05-07
申请人: 珠海金山办公软件有限公司 , 北京金山办公软件股份有限公司
IPC分类号: G06K9/00 , G06K9/34 , G06F40/166
摘要: 本文公开一种文档还原处理方法、装置、计算机存储介质及终端,本发明实施例获取待处理图像;通过提取待处理图像中落入预设的颜色分量集范围的像素点组成待处理图像中文字部分所对应图像的第一二值图;提取待处理图像的第二二值图;根据待处理图像、第一二值图和第二二值图还原待检测印章区域中的印章图像与文字到新文档。通过对待检测印章区域中文字和印章图像的还原,提升了还原可编辑文档过程中印章区域的还原质量。
-
-
-
-
-
-
-
-
-