发明授权
- 专利标题: 基于数据湖的异构数据源集成方法及装置
-
申请号: CN202010809326.4申请日: 2020-08-12
-
公开(公告)号: CN111966750B公开(公告)日: 2022-01-25
- 发明人: 翟士丹
- 申请人: 北京海致科技集团有限公司
- 申请人地址: 北京市海淀区学院路甲5号2幢平房B-1011
- 专利权人: 北京海致科技集团有限公司
- 当前专利权人: 北京海致科技集团有限公司
- 当前专利权人地址: 北京市海淀区学院路甲5号2幢平房B-1011
- 代理机构: 北京棘龙知识产权代理有限公司
- 代理商 谢静
- 主分类号: G06F16/27
- IPC分类号: G06F16/27 ; G06F16/25
摘要:
本发明公开了基于数据湖的异构数据源集成方法及装置,其方法包括如下步骤:a、根据用户调用写数据接口的信息,确定本次写请求的操作标示、数据、时间戳,其中操作标示包含追加、更新、删除三种类型,时间戳为写请求达到的时间,将以上信息追加写入到数据湖中的一个特定文件内;b、将上一步写入到特定文件内的数据,结合操作标示及时间戳做数据合并处理,得到最终的结果数据。本发明解决了现有数据湖数据集成技术,无法支持数据更新操作,不能将数据湖的数据和原始数据保持一致,不能有效解决大数据集群大量小文件导致查询性能低效等问题。
公开/授权文献
- CN111966750A 基于数据湖的异构数据源集成方法及装置 公开/授权日:2020-11-20