基于数据湖的异构数据源集成方法及装置
基本信息
申请号 | CN202010809326.4 | 申请日 | - |
公开(公告)号 | CN111966750B | 公开(公告)日 | 2022-01-25 |
申请公布号 | CN111966750B | 申请公布日 | 2022-01-25 |
分类号 | G06F16/27(2019.01)I;G06F16/25(2019.01)I | 分类 | 计算;推算;计数; |
发明人 | 翟士丹 | 申请(专利权)人 | 北京海致科技集团有限公司 |
代理机构 | 北京棘龙知识产权代理有限公司 | 代理人 | 谢静 |
地址 | 100083 北京市海淀区学院路甲5号2幢平房B-1011 | ||
法律状态 | - |
摘要
摘要 | 本发明公开了基于数据湖的异构数据源集成方法及装置,其方法包括如下步骤:a、根据用户调用写数据接口的信息,确定本次写请求的操作标示、数据、时间戳,其中操作标示包含追加、更新、删除三种类型,时间戳为写请求达到的时间,将以上信息追加写入到数据湖中的一个特定文件内;b、将上一步写入到特定文件内的数据,结合操作标示及时间戳做数据合并处理,得到最终的结果数据。本发明解决了现有数据湖数据集成技术,无法支持数据更新操作,不能将数据湖的数据和原始数据保持一致,不能有效解决大数据集群大量小文件导致查询性能低效等问题。 |
