-
公开(公告)号:CN104067293A
公开(公告)日:2014-09-24
申请号:CN201280067911.5
申请日:2012-01-23
申请人: 微软公司
IPC分类号: G06K9/00
CPC分类号: G06F17/211 , G06K9/00469
摘要: 在本发明中描述并在附图中示出了矢量图分类引擎及相关联的用于对固定格式文档中的矢量图进行分类的方法。矢量图分类引擎定义用于对从固定格式文档中解析作为字体、文本、段落、表、以及页面效果(如阴影、边界、下划线、以及删除线)等的矢量图进行分类的流水线。没有被以其他方式分类的矢量图被指定为基本图。通过按所选次序对检测操作进行排序,最小化或消除了误分类。
-
公开(公告)号:CN104221033A
公开(公告)日:2014-12-17
申请号:CN201280067894.5
申请日:2012-01-23
申请人: 微软公司
IPC分类号: G06K9/00
CPC分类号: G06K9/00463
摘要: 固定格式文档转换引擎和相关联的用于将固定格式的文档转换成流格式文档的方法。固定格式文档转换引擎包括一系列布局分析引擎和语义分析引擎,以分析从固定格式文档获得的基本物理布局信息来将物理布局信息丰富、修改和分类成为渐进地更加高级的物理布局信息,并最终成为语义布局信息。将语义布局信息映射且串行化为具有高级流动性的选中的流格式文档。
-
公开(公告)号:CN104094278A
公开(公告)日:2014-10-08
申请号:CN201280067913.4
申请日:2012-01-23
申请人: 微软公司
IPC分类号: G06K9/00
CPC分类号: G06K9/00469 , G06K9/00463 , G06K2209/015
摘要: 模式匹配引擎及相关联的用于检测在固定格式文档中出现的页眉、页脚、水印、页编码、页面色彩和页边界中的一个或多个的方法。模式匹配引擎跨固定格式文档的各页执行模式匹配以标识重复模式。使用试探分析,符合所选准则的重复模式被分类为页眉、页脚或水印。过滤移除了不可能表示页眉、页脚或水印的重复模式。由模式匹配引擎产生的信息允许在将固定格式文档转换为流格式文档时将重复元素合适地重构为可流动元素。
-
公开(公告)号:CN104094282A
公开(公告)日:2014-10-08
申请号:CN201280067898.3
申请日:2012-01-23
申请人: 微软公司
CPC分类号: G06F17/245 , G06K9/00463 , G06K9/34 , G06K2209/01
摘要: 用于标识出现在从固定格式文档提取的数据中的无边框表格的无边框表格检测引擎和相关联的方法。由于缺乏可视的边框,对无边框表格的可信赖的自动化检测是困难的。无边框表格检测引擎使用空白区而非内容来检测无边框表格候选。通过应用试探法分析,无边框表格检测引擎丢弃具有缺乏表格的足够特征且不可能是有效的无边框表格的布局的无边框表格候选。
-
-
-