一种大数据环境下非结构化表格文档数据抽取与组织方法

    公开(公告)号:CN105630916B

    公开(公告)日:2018-11-06

    申请号:CN201510969896.9

    申请日:2015-12-21

    IPC分类号: G06F17/30

    摘要: 本发明专利涉及一种大数据环境下非结构化表格文档数据抽取与组织方法。首先,分析了非结构化表格文档的结构特征和数据流特征,定义了数据抽取规则;其次,给出了非结构化表格文档数据抽取流程与抽取算法;再次,给出了一种将抽取结果转换为结构化数据的组织方法;最后,给出了基于MapReduce并行编程模型对所得到的结构化数据集进行分析的方法。本方法能够为大数据环境下挖掘非结构化表格文档蕴藏的知识提供技术支持。

    一种基于平行坐标系的海量文件流转可视化方法

    公开(公告)号:CN106021529A

    公开(公告)日:2016-10-12

    申请号:CN201610354920.2

    申请日:2016-05-25

    IPC分类号: G06F17/30 G06Q10/06

    摘要: 本发明专利涉及一种基于平行坐标系的海量文件流转可视化方法。首先,对文件流转数据进行预处理,转换为中间表示;其次,将中间表示数据集转换为虚拟坐标集合,作为平行坐标系的可视化数据源;然后,根据虚拟坐标集合绘制平行坐标系,平行坐标上的点表示单位,点与点之间的折线表示流转关系;最后,根据数据特征或人机交互对平行坐标系的报送流程进行高亮显示和过虑显示;本发明的优点是能够支持海量文件报送的可视化管理,提高管理效率。