-
公开(公告)号:CN112685419A
公开(公告)日:2021-04-20
申请号:CN202011622773.5
申请日:2020-12-31
申请人: 北京赛思信安技术股份有限公司
IPC分类号: G06F16/22 , G06F16/23 , G06F16/2458 , G06F16/27 , G06F9/54
摘要: 本发明公开了一种可保持janusGraph实时数据一致性的高效并行加载方法,属于分布式图数据库领域,首先构建分布式结构;创建两个空的分布式队列;然后,实时接收数据并解析后存入队列一中;数据处理模块逐条取出,调用分布式索引模块中存在对应ID的数据加载到图数据库中,并将无法调用ID的点的唯一标志存入队列二中,点处理模块判断能否获取各标志对应的ID,如果能,则继续获取下一个进行判断;否则,将各标志加载到图数据库中,并产生对应的ID;同时将S与ID的对应关系保存;集群管理模块找寻主节点,并对各子节点分发任务,各子节点并行处理各自的分布式队列分区中的数据。本发明保证数据一致性的同时提高实时数据的并行加载。
-
公开(公告)号:CN112667747A
公开(公告)日:2021-04-16
申请号:CN202011634276.7
申请日:2020-12-31
申请人: 北京赛思信安技术股份有限公司
摘要: 本发明是一种支持自定义插件的动态配置多数据库分布式持久化方法,对多数据库引擎的海量数据存储提供自动化、可配置、统一化的高效数据接入。本发明方法包括:搭建包含多种存储引擎、配置生成工具loadtool、数据持久化工具Pasca、Zookeeper和Kafka集群的数据平台;loadtool实现自动化配置,上传配置文件到Zookeeper;Pasca监控Zookeeper以动态更新配置;将接入的实时数据或离线数据发往Kafka集群,Pasca启动数据持久化通道,对接入的数据持久化。本发明具有自动化、动态配置、统一化优点,能方便的简单、灵活、高效的持久化数据,充分利用大数据集群的存储和计算资源。
-
公开(公告)号:CN107038260A
公开(公告)日:2017-08-11
申请号:CN201710390469.4
申请日:2017-05-27
申请人: 国家计算机网络与信息安全管理中心 , 北京赛思信安技术股份有限公司
IPC分类号: G06F17/30
摘要: 本发明公开了一种可保持titan实时数据一致性的高效并行加载方法,属于大数据处理领域;首先,将titan划分为7个并行工作的模块,清洗规则管理模块实时更新过滤规则;数据接收模块接收pieceOfData放入queue1中;数据清洗模块过滤合格数据放入queue2中;ID转换模块与高速索引模块交互,判断当前pieceOfData中的两个点与titan ID的对应关系是否存在与图数据库中;如果是,将titan内部ID属性与ID值替换点保存到pieceOfDataT中,放入到queue4中;否则,将未加载的点放入HashSet中,并将对应的pieceOfData放入queue3中;剩余数据加载模块多线程并行将pieceOfDataT加载到titan中;点加载模块负责将HashSet中点加入titan,将点与titan ID的对应关系加入高速索引模块。本发明每个模块独自或交互完成部分功能,从而实现整体上加载效率的提升。
-
公开(公告)号:CN116910001A
公开(公告)日:2023-10-20
申请号:CN202310652580.1
申请日:2023-06-02
申请人: 北京赛思信安技术股份有限公司
发明人: 蒲路
IPC分类号: G06F16/172 , G06F16/182 , G06F16/14 , G06F16/16
摘要: 本发明公开了一种基于NAS文件系统的海量对象快速存储系统,涉及大数据服务等领域。本发明的海量对象快速存储系统包括服务端模块、客户端模块以及NAS文件系统;客户端模块收到用户写入的数据后,将对象数据组装成byte数组发送给服务端模块;服务端模块计算byte数组写入NAS系统的文件名称,文件名称为通用唯一标识码uuid,将数组存入对应NAS系统的文件中,返回文件名称和数组在文件中的索引位置给客户端;客户端计算每个对象的最终唯一标识,用户利用最终标识从NAS系统中读取对象文件。本发明能够基于NAS快速存储大量的对象数据,避开元数据问题,可提供接近网卡极限的超高对象写入速度。
-
公开(公告)号:CN112667747B
公开(公告)日:2021-09-21
申请号:CN202011634276.7
申请日:2020-12-31
申请人: 北京赛思信安技术股份有限公司
摘要: 本发明是一种支持自定义插件的动态配置多数据库分布式持久化方法,对多数据库引擎的海量数据存储提供自动化、可配置、统一化的高效数据接入。本发明方法包括:搭建包含多种存储引擎、配置生成工具loadtool、数据持久化工具Pasca、Zookeeper和Kafka集群的数据平台;loadtool实现自动化配置,上传配置文件到Zookeeper;Pasca监控Zookeeper以动态更新配置;将接入的实时数据或离线数据发往Kafka集群,Pasca启动数据持久化通道,对接入的数据持久化。本发明具有自动化、动态配置、统一化优点,能方便的简单、灵活、高效的持久化数据,充分利用大数据集群的存储和计算资源。
-
公开(公告)号:CN112685419B
公开(公告)日:2021-09-10
申请号:CN202011622773.5
申请日:2020-12-31
申请人: 北京赛思信安技术股份有限公司
IPC分类号: G06F16/22 , G06F16/23 , G06F16/2458 , G06F16/27 , G06F9/54
摘要: 本发明公开了一种可保持janusGraph实时数据一致性的高效并行加载方法,属于分布式图数据库领域,首先构建分布式结构;创建两个空的分布式队列;然后,实时接收数据并解析后存入队列一中;数据处理模块逐条取出,调用分布式索引模块中存在对应ID的数据加载到图数据库中,并将无法调用ID的点的唯一标志存入队列二中,点处理模块判断能否获取各标志对应的ID,如果能,则继续获取下一个进行判断;否则,将各标志加载到图数据库中,并产生对应的ID;同时将S与ID的对应关系保存;集群管理模块找寻主节点,并对各子节点分发任务,各子节点并行处理各自的分布式队列分区中的数据。本发明保证数据一致性的同时提高实时数据的并行加载。
-
公开(公告)号:CN107038260B
公开(公告)日:2020-03-10
申请号:CN201710390469.4
申请日:2017-05-27
申请人: 国家计算机网络与信息安全管理中心 , 北京赛思信安技术股份有限公司
IPC分类号: G06F16/215 , G06F16/23 , G06F16/2457 , G06F16/25
摘要: 本发明公开了一种可保持titan实时数据一致性的高效并行加载方法,属于大数据处理领域;首先,将titan划分为7个并行工作的模块,清洗规则管理模块实时更新过滤规则;数据接收模块接收pieceOfData放入queue1中;数据清洗模块过滤合格数据放入queue2中;ID转换模块与高速索引模块交互,判断当前pieceOfData中的两个点与titan ID的对应关系是否存在与图数据库中;如果是,将titan内部ID属性与ID值替换点保存到pieceOfDataT中,放入到queue4中;否则,将未加载的点放入HashSet中,并将对应的pieceOfData放入queue3中;剩余数据加载模块多线程并行将pieceOfDataT加载到titan中;点加载模块负责将HashSet中点加入titan,将点与titan ID的对应关系加入高速索引模块。本发明每个模块独自或交互完成部分功能,从而实现整体上加载效率的提升。
-
-
-
-
-
-