基于数据湖的异构数据源集成方法及装置

基本信息

申请号 CN202010809326.4 申请日 -
公开(公告)号 CN111966750B 公开(公告)日 2022-01-25
申请公布号 CN111966750B 申请公布日 2022-01-25
分类号 G06F16/27(2019.01)I;G06F16/25(2019.01)I 分类 计算;推算;计数;
发明人 翟士丹 申请(专利权)人 北京海致科技集团有限公司
代理机构 北京棘龙知识产权代理有限公司 代理人 谢静
地址 100083 北京市海淀区学院路甲5号2幢平房B-1011
法律状态 -

摘要

摘要 本发明公开了基于数据湖的异构数据源集成方法及装置,其方法包括如下步骤:a、根据用户调用写数据接口的信息,确定本次写请求的操作标示、数据、时间戳,其中操作标示包含追加、更新、删除三种类型,时间戳为写请求达到的时间,将以上信息追加写入到数据湖中的一个特定文件内;b、将上一步写入到特定文件内的数据,结合操作标示及时间戳做数据合并处理,得到最终的结果数据。本发明解决了现有数据湖数据集成技术,无法支持数据更新操作,不能将数据湖的数据和原始数据保持一致,不能有效解决大数据集群大量小文件导致查询性能低效等问题。