一种基于列存数据库的流式数据处理方法及系统

基本信息

申请号 CN202111307991.4 申请日 -
公开(公告)号 CN114185885A 公开(公告)日 2022-03-15
申请公布号 CN114185885A 申请公布日 2022-03-15
分类号 G06F16/22(2019.01)I;G06F16/2453(2019.01)I;G06F16/2455(2019.01)I;G06F16/2458(2019.01)I;G06F16/901(2019.01)I;G06F16/31(2019.01)I;G06F16/33(2019.01)I;G06F16/51(2019.01)I;G06F16/53(2019.01)I 分类 计算;推算;计数;
发明人 程学旗;郭嘉丰;李冰;邱强;张志斌 申请(专利权)人 中国科学院计算技术研究所
代理机构 北京律诚同业知识产权代理有限公司 代理人 祁建国
地址 100080北京市海淀区中关村科学院南路6号
法律状态 -

摘要

摘要 本发明提出一种基于列存数据的流式数据处理方法和系统,包括:获取待处理的列存流式数据及其对应的处理任务,基于时间维度将该流式数据切分为批式数据块,根据预设窗口模式为该批式数据块中每条数据分配窗口序号;将该批式数据块切分为多个中间数据块,每个中间数据块仅包含窗口序号相同的数据,对每个中间数据块的数据进行预聚合计算,产生预聚合中间状态;根据预设的流式数据时间处理模式,从内部存储提取窗口对应窗口序号的预聚合中间状态并执行与其对应的处理任务,输出任务执行结果,作为流式数据处理结果。本发明通过使用列存存储及计算引擎,结合预聚合技术,在保持较低延迟的前提下,提升数据分析场景的吞吐量。