基于分布式文件系统流式数据实时更新插入合并处理方法
摘要:
本发明公开了一种基于分布式文件系统流式数据实时更新插入合并处理方法,所述方法包括:步骤1、在分布式文件系统上对接入的流式数据以单个表为单位按时间间隔进行分区操作;步骤2、采用流数据中主键字段的值作为该条数据的key值;步骤3、将数据的key值和当前数据所在的分区号建立唯一映射关系,把这种映射关系存放在第三方数据库中,利用第三方数据库完成索引的构建;步骤4、当每条流式数据开始接入时,执行更新或插入操作;步骤5、根据触发机制来对分区文件夹中的文件进行合并;解决了现有技术的分布式文件系统中无法实时对流数据更新插入的合并操作。
0/0