一种将PDF格式文件转换为EPUB格式的方法及系统

    公开(公告)号:CN102332002B

    公开(公告)日:2013-11-13

    申请号:CN201110213555.0

    申请日:2011-07-28

    发明人: 王峰 晏检平

    IPC分类号: G06F17/30 G06F17/21

    CPC分类号: G06F17/30179

    摘要: 本发明公开一种将PDF格式文件转换为EPUB格式的方法,包括:识别PDF格式文件中的文本元素、图像元素;获取所述文本元素的坐标和所述图像元素的坐标;根据所述文本元素的坐标和所述图像元素的坐标,确定所述文本元素和所述图像元素在新生成的HTML格式文件中的位置;按照所述位置,生成HTML格式文件;根据所述HTML格式文件,生成EPUB格式文件。本发明还公开了一种将PDF格式文件转换为EPUB格式的系统。采用本发明所公开的发明或系统,能够使转化成的EPUB格式的文件图文并茂,并保留原PDF格式文件中的文字元素与图像元素的位置关系。

    一种转换虚拟磁盘文件格式的方法与设备

    公开(公告)号:CN107766385A

    公开(公告)日:2018-03-06

    申请号:CN201610703227.1

    申请日:2016-08-22

    发明人: 陈伟才 彭磊

    IPC分类号: G06F17/30

    CPC分类号: G06F17/30179

    摘要: 本申请的目的是提供一种转换虚拟磁盘文件格式的方法与设备。与现有技术相比,本申请获取虚拟机关于目标虚拟磁盘文件中目标数据的处理请求,然后,检测所述目标数据中是否存在待转换格式数据,若所述目标数据中存在待转换格式数据,将对应源虚拟磁盘文件中源位置信息的数据写入所述待转换格式数据在所述目标虚拟磁盘文件中的目的位置信息以作为所述待转换格式数据,从而实现在线、无缝、实时转换虚拟磁盘文件格式,再对所述目标数据执行所述处理请求,保证了用户可以不需要等待任何时间就可以使用虚拟机或者虚拟机的磁盘。

    Word文档的转换方法及系统

    公开(公告)号:CN106802937A

    公开(公告)日:2017-06-06

    申请号:CN201611252467.0

    申请日:2016-12-30

    IPC分类号: G06F17/30

    CPC分类号: G06F17/30179

    摘要: 本发明公开一种Word文档的转换方法,包括步骤:对Word文档的全文进行Html标签语言文本化,输出Html标签语言文本;设置具有正则表达式的预定义结构,通过预定义结构对Html标签语言文本执行搜索匹配,输出初步结构化文档型数据;用户根据预定义结构搜索匹配后提示的错误信息,对初步结构化文档型数据中结构的各层级以及内容分别进行人工修正,输出完整的结构化文档型数据。本发明提供的Word文档的转换方法,通过对Word文档Html化、预定义结构搜索匹配以及人工辅助修正的方法,将Word文档中以自然语言组织的内容转为以计算机语言组织的结构化文档型数据存储,供内容数据的便利存储、查询以及分析。

    一种基于分布式的文档在线预览设计方法

    公开(公告)号:CN105740435A

    公开(公告)日:2016-07-06

    申请号:CN201610069185.0

    申请日:2016-01-28

    IPC分类号: G06F17/30

    CPC分类号: G06F17/30179 G06F17/30011

    摘要: 本发明属于文档在线预览技术领域,特别涉及一种基于分布式的文档在线预览设计方法。用户在页面点击选择按钮选择需要转换的文档,点击上传按钮将所述文档上传至web服务器,所述web服务器判断该文档的格式,若所述文档为office文档,office转换pdf服务管理节点、pdf转换swf服务管理节点根据算法选出集群中最合适的转换服务器,并分配任务至所述转换服务器,如果该转换服务器处理失败,则文档会进入管理节点再次等待进行处理,如果两次均处理失败,则会记录相应的信息,并将该文档信息保存等待定时任务的再次处理,用户可以在短时间内浏览到已经转换好的文档,增强了用户的体验,而且本发明还具备容错能力。

    用于将非文本内容对象化以及用于文档发现的方法和系统

    公开(公告)号:CN105740317A

    公开(公告)日:2016-07-06

    申请号:CN201511030093.3

    申请日:2015-12-31

    IPC分类号: G06F17/30

    CPC分类号: G06F17/30179

    摘要: 公开了用于将非文本内容对象化以及用于文档发现的方法和系统。用于将非原生文件内的非文本内容对象化的方法包括通过确定对象的标签并且创建包括对象和标签的对象化对象来将非文本内容的对象对象化,其中标签以原生文件格式来限定对象的一部分。该方法还包括:基于对象化对象来生成包括对象化对象的组成信息的元数据,组成信息的至少部分是能够由原生应用针对原生文件进行搜索的文本数据;以及生成包括附有元数据的对象化对象的新的原生文件。