一种可保持janusGraph数据一致性的分布式高效并行加载方法

    公开(公告)号:CN112685419A

    公开(公告)日:2021-04-20

    申请号:CN202011622773.5

    申请日:2020-12-31

    发明人: 谢铭 蒲路 孟宪文

    摘要: 本发明公开了一种可保持janusGraph实时数据一致性的高效并行加载方法,属于分布式图数据库领域,首先构建分布式结构;创建两个空的分布式队列;然后,实时接收数据并解析后存入队列一中;数据处理模块逐条取出,调用分布式索引模块中存在对应ID的数据加载到图数据库中,并将无法调用ID的点的唯一标志存入队列二中,点处理模块判断能否获取各标志对应的ID,如果能,则继续获取下一个进行判断;否则,将各标志加载到图数据库中,并产生对应的ID;同时将S与ID的对应关系保存;集群管理模块找寻主节点,并对各子节点分发任务,各子节点并行处理各自的分布式队列分区中的数据。本发明保证数据一致性的同时提高实时数据的并行加载。

    支持自定义插件的动态配置多数据库分布式持久化方法

    公开(公告)号:CN112667747A

    公开(公告)日:2021-04-16

    申请号:CN202011634276.7

    申请日:2020-12-31

    发明人: 谢铭 郑佳星 蒲路

    摘要: 本发明是一种支持自定义插件的动态配置多数据库分布式持久化方法,对多数据库引擎的海量数据存储提供自动化、可配置、统一化的高效数据接入。本发明方法包括:搭建包含多种存储引擎、配置生成工具loadtool、数据持久化工具Pasca、Zookeeper和Kafka集群的数据平台;loadtool实现自动化配置,上传配置文件到Zookeeper;Pasca监控Zookeeper以动态更新配置;将接入的实时数据或离线数据发往Kafka集群,Pasca启动数据持久化通道,对接入的数据持久化。本发明具有自动化、动态配置、统一化优点,能方便的简单、灵活、高效的持久化数据,充分利用大数据集群的存储和计算资源。

    一种基于NAS文件系统的海量对象快速存储系统

    公开(公告)号:CN116910001A

    公开(公告)日:2023-10-20

    申请号:CN202310652580.1

    申请日:2023-06-02

    发明人: 蒲路

    摘要: 本发明公开了一种基于NAS文件系统的海量对象快速存储系统,涉及大数据服务等领域。本发明的海量对象快速存储系统包括服务端模块、客户端模块以及NAS文件系统;客户端模块收到用户写入的数据后,将对象数据组装成byte数组发送给服务端模块;服务端模块计算byte数组写入NAS系统的文件名称,文件名称为通用唯一标识码uuid,将数组存入对应NAS系统的文件中,返回文件名称和数组在文件中的索引位置给客户端;客户端计算每个对象的最终唯一标识,用户利用最终标识从NAS系统中读取对象文件。本发明能够基于NAS快速存储大量的对象数据,避开元数据问题,可提供接近网卡极限的超高对象写入速度。

    支持自定义插件的动态配置多数据库分布式持久化方法

    公开(公告)号:CN112667747B

    公开(公告)日:2021-09-21

    申请号:CN202011634276.7

    申请日:2020-12-31

    发明人: 谢铭 郑佳星 蒲路

    摘要: 本发明是一种支持自定义插件的动态配置多数据库分布式持久化方法,对多数据库引擎的海量数据存储提供自动化、可配置、统一化的高效数据接入。本发明方法包括:搭建包含多种存储引擎、配置生成工具loadtool、数据持久化工具Pasca、Zookeeper和Kafka集群的数据平台;loadtool实现自动化配置,上传配置文件到Zookeeper;Pasca监控Zookeeper以动态更新配置;将接入的实时数据或离线数据发往Kafka集群,Pasca启动数据持久化通道,对接入的数据持久化。本发明具有自动化、动态配置、统一化优点,能方便的简单、灵活、高效的持久化数据,充分利用大数据集群的存储和计算资源。

    一种可保持janusGraph数据一致性的分布式高效并行加载方法

    公开(公告)号:CN112685419B

    公开(公告)日:2021-09-10

    申请号:CN202011622773.5

    申请日:2020-12-31

    发明人: 谢铭 蒲路 孟宪文

    摘要: 本发明公开了一种可保持janusGraph实时数据一致性的高效并行加载方法,属于分布式图数据库领域,首先构建分布式结构;创建两个空的分布式队列;然后,实时接收数据并解析后存入队列一中;数据处理模块逐条取出,调用分布式索引模块中存在对应ID的数据加载到图数据库中,并将无法调用ID的点的唯一标志存入队列二中,点处理模块判断能否获取各标志对应的ID,如果能,则继续获取下一个进行判断;否则,将各标志加载到图数据库中,并产生对应的ID;同时将S与ID的对应关系保存;集群管理模块找寻主节点,并对各子节点分发任务,各子节点并行处理各自的分布式队列分区中的数据。本发明保证数据一致性的同时提高实时数据的并行加载。