矢量图分类引擎
    1.
    发明公开

    公开(公告)号:CN104067293A

    公开(公告)日:2014-09-24

    申请号:CN201280067911.5

    申请日:2012-01-23

    申请人: 微软公司

    IPC分类号: G06K9/00

    CPC分类号: G06F17/211 G06K9/00469

    摘要: 在本发明中描述并在附图中示出了矢量图分类引擎及相关联的用于对固定格式文档中的矢量图进行分类的方法。矢量图分类引擎定义用于对从固定格式文档中解析作为字体、文本、段落、表、以及页面效果(如阴影、边界、下划线、以及删除线)等的矢量图进行分类的流水线。没有被以其他方式分类的矢量图被指定为基本图。通过按所选次序对检测操作进行排序,最小化或消除了误分类。

    模式匹配引擎
    3.
    发明公开

    公开(公告)号:CN104094278A

    公开(公告)日:2014-10-08

    申请号:CN201280067913.4

    申请日:2012-01-23

    申请人: 微软公司

    IPC分类号: G06K9/00

    摘要: 模式匹配引擎及相关联的用于检测在固定格式文档中出现的页眉、页脚、水印、页编码、页面色彩和页边界中的一个或多个的方法。模式匹配引擎跨固定格式文档的各页执行模式匹配以标识重复模式。使用试探分析,符合所选准则的重复模式被分类为页眉、页脚或水印。过滤移除了不可能表示页眉、页脚或水印的重复模式。由模式匹配引擎产生的信息允许在将固定格式文档转换为流格式文档时将重复元素合适地重构为可流动元素。

    无边框表格检测引擎
    4.
    发明公开

    公开(公告)号:CN104094282A

    公开(公告)日:2014-10-08

    申请号:CN201280067898.3

    申请日:2012-01-23

    申请人: 微软公司

    IPC分类号: G06K9/34 G06K9/00

    摘要: 用于标识出现在从固定格式文档提取的数据中的无边框表格的无边框表格检测引擎和相关联的方法。由于缺乏可视的边框,对无边框表格的可信赖的自动化检测是困难的。无边框表格检测引擎使用空白区而非内容来检测无边框表格候选。通过应用试探法分析,无边框表格检测引擎丢弃具有缺乏表格的足够特征且不可能是有效的无边框表格的布局的无边框表格候选。