一种压缩、解压及查询文档的方法、装置

    公开(公告)号:CN103186611B

    公开(公告)日:2016-03-30

    申请号:CN201110456661.1

    申请日:2011-12-30

    发明人: 仇睿恒 胡薇

    IPC分类号: G06F17/30

    摘要: 本发明涉及计算机应用技术领域,尤其涉及一种压缩、解压及查询文档的方法、装置,用于解决如何通过Schema提高对XML文档进行压缩的效率;该方法包括:分离出XML文档的结构内容和数据内容;结构内容为XML文档中的标签中除属性值以及标签间的内容之外的其他内容;确定结构内容中的节点的路径编码;根据预先保存的节点的先序号,确定节点所对应的数据内容;所述节点的路径编码通过所述节点和所述结构内容中的其他节点标识该节点在结构内容中的存储位置;按照预先设置的方法对所述结构内容中的节点以及节点的路径编码进行处理,并将处理后的节点、节点的路径编码和所述数据内容分别进行压缩。可见,从用该方法能够通过Schema提高对XML文档进行压缩的效率。

    一种处理扫描书数据的方法及装置

    公开(公告)号:CN103186911B

    公开(公告)日:2015-07-15

    申请号:CN201110448225.X

    申请日:2011-12-28

    发明人: 仇睿恒 李赟

    IPC分类号: G06T11/60 G06K9/20

    摘要: 本发明公开了一种处理扫描书数据的方法及装置,为实现对扫描书的页面文档进行版面重排提供必要条件,从而能够实现对扫描书进行版面重排。方法包括:读取所述页面文档的页面图像数据;对所述页面图像数据进行分割、识别,得到所述页面文档中的每个文字在相应页面文档上的矩形框位置和字符编码;对所述页面文档中的每行文字进行文字行聚合处理,得到所述每行文字的文字行信息,并根据所述文字行信息对所述每行文字中的每个文字对应的矩形框进行修正,得到每个文字的确切图像矩形框位置信息和文字行聚合信息;存储所述页面文档中每个文字对应的确切图像矩形框位置信息、文字行聚合信息和字符编码。

    一种内嵌字体处理方法与装置

    公开(公告)号:CN103488616A

    公开(公告)日:2014-01-01

    申请号:CN201210191967.3

    申请日:2012-06-11

    发明人: 丁力 仇睿恒 张磊

    IPC分类号: G06F17/22 G06F17/30

    CPC分类号: G06F17/214

    摘要: 本发明涉及文字数据处理领域技术,尤其涉及一种处理内嵌字体方法与装置,包括:在获取的各内嵌字体对应的原始字库中,查找对应该内嵌字体的高级特性信息;在所述内嵌字体对应的高级特性信息中,选取至少一个高级特性信息作为关键特性信息;根据所述关键特性信息,确定出所有包含与所述关键特性信息对应的字体,并生成备选字体集;在生成的所述备选字体集确定出与所述内嵌字体完全匹配的字体类型。使用本发明实施例提供的处理内嵌字体方法与装置,有利于对内嵌字体进行编辑,可以利用本地已有的原始字体数据进行文字的绘制,而省略内嵌字体数据的网络传输,并且提高了查找效率。

    一种内嵌字体处理方法与装置

    公开(公告)号:CN103488616B

    公开(公告)日:2016-04-06

    申请号:CN201210191967.3

    申请日:2012-06-11

    发明人: 丁力 仇睿恒 张磊

    IPC分类号: G06F17/22 G06F17/30

    CPC分类号: G06F17/214

    摘要: 本发明涉及文字数据处理领域技术,尤其涉及一种处理内嵌字体方法与装置,包括:在获取的各内嵌字体对应的原始字库中,查找对应该内嵌字体的高级特性信息;在所述内嵌字体对应的高级特性信息中,选取至少一个高级特性信息作为关键特性信息;根据所述关键特性信息,确定出所有包含与所述关键特性信息对应的字体,并生成备选字体集;在生成的所述备选字体集确定出与所述内嵌字体完全匹配的字体类型。使用本发明实施例提供的处理内嵌字体方法与装置,有利于对内嵌字体进行编辑,可以利用本地已有的原始字体数据进行文字的绘制,而省略内嵌字体数据的网络传输,并且提高了查找效率。

    基于版式文件的文档流式信息处理方法及装置

    公开(公告)号:CN101308488B

    公开(公告)日:2010-06-02

    申请号:CN200810114437.2

    申请日:2008-06-05

    发明人: 仇睿恒 王毅 汤帜

    IPC分类号: G06F17/21

    CPC分类号: G06F17/212

    摘要: 本发明公开了一种基于版式文件的文档流式信息处理方法及装置,具体公开了如下技术方案:获得版式文件的文档流式信息,所述文档流式信息为所述版式文件中文档内容结构信息和/或所述版式文件中文档版面自适应呈现信息;根据所述获得的文档流式信息,对所述版式文件的文档内容进行内容块划分;描述所述版式文件的内容块划分结果信息;根据所述内容块划分结果信息,描述基于内容块划分后的该版式文件的文档流式信息。从而使得描述版式文件的文档流式信息更加切实可行,可以灵活对版式文件中的任意内容进行文档流式信息的描述,描述范围更加准确,并且文档流式信息的处理更加灵活、简化。

    一种文件打包的方法和装置

    公开(公告)号:CN101398853A

    公开(公告)日:2009-04-01

    申请号:CN200810224424.0

    申请日:2008-10-14

    发明人: 仇睿恒 汤帜 王毅

    IPC分类号: G06F17/30

    CPC分类号: G06F17/30115

    摘要: 本发明公开了一种文件打包的方法和装置,以解决现有技术中打包文件数据处理不灵活的问题。本发明所提供的方法中首先收集所有打包的文件或者文件夹,所述待打包的文件或者文件夹都由至少一个文件项来表示,并且所述文件项由多个描述文件内容的文件信息组成。然后将每个文件项的文件信息分成多个分组信息,最后按照一定的排序原则将分组信息写入包文件中。本发明所述的装置与方法,通过将需要打包的文件或者文件夹分成多个文件项然后再将文件项分为多个分组信息的方法,使得打包的文件在使用和打包时灵活度更高。

    基于版式文件的文档流式信息处理方法及装置

    公开(公告)号:CN101308488A

    公开(公告)日:2008-11-19

    申请号:CN200810114437.2

    申请日:2008-06-05

    发明人: 仇睿恒 王毅 汤帜

    IPC分类号: G06F17/21

    CPC分类号: G06F17/212

    摘要: 本发明公开了一种基于版式文件的文档流式信息处理方法及装置,具体公开了如下技术方案:获得版式文件的文档流式信息,所述文档流式信息为所述版式文件中文档内容结构信息和/或所述版式文件中文档版面自适应呈现信息;根据所述获得的文档流式信息,对所述版式文件的文档内容进行内容块划分;描述所述版式文件的内容块划分结果信息;根据所述内容块划分结果信息,描述基于内容块划分后的该版式文件的文档流式信息。从而使得描述版式文件的文档流式信息更加切实可行,可以灵活对版式文件中的任意内容进行文档流式信息的描述,描述范围更加准确,并且文档流式信息的处理更加灵活、简化。