基于Hadoop分布式计算平台的非结构化数据存储系统

    公开(公告)号:CN104978336A

    公开(公告)日:2015-10-14

    申请号:CN201410137127.8

    申请日:2014-04-08

    IPC分类号: G06F17/30

    摘要: 本发明涉及信息技术处理领域,具体涉及一种基于Hadoop分布式计算平台的非结构化数据存储系统;包括以下步骤:S1:客户端通过调用HDFS类DistributedFileSystem对象调用create()函数在文件系统的命名空间中创建了一个新文件,该新文件还没有相应的数据块;S2:namenode执行检查确保当前创建的文件还不存在并且客户端有创建该文件的权限,检查通过则创建新文件记录,若检查不通过则文件创建失败并抛出异常;S3:客户端在给创建的新文件写入非结构化数据时,非结构化数据被分成一个个的数据包,并写入内部队列,HDFS的DataStreamer处理数据队列,根据datanode的队列列表要求namenode分配适合的新块来存储数据备份;大大的降低了存储数据所需要昂贵存储设备价格,并且在数据存储过程中,HDFS拥有很好的数据容灾机制。