一种基于SparkStreaming的动态更新共享数据方法

基本信息

申请号 CN202110043173.1 申请日 -
公开(公告)号 CN112559227A 公开(公告)日 2021-03-26
申请公布号 CN112559227A 申请公布日 2021-03-26
分类号 G06F16/2455(2019.01)I;G06F9/54(2006.01)I;G06F8/656(2018.01)I 分类 计算;推算;计数;
发明人 齐博 申请(专利权)人 贵州省广播电视信息网络股份有限公司
代理机构 贵州启辰知识产权代理有限公司 代理人 赵彦栋;葛歆玮
地址 550081贵州省贵阳市观山湖区金阳南路36号
法律状态 -

摘要

摘要 本发明公开了一种基于Spark Streaming的动态更新共享数据方法,就Spark而言,大变量都会由Driver端来进行分发,这个大变量如果不是广播变量,那每一个task就会分发一份出来,这在task数目在十分多的情况下Driver端的带宽就会成为系统瓶颈,而且还会大量消耗task服务器的资源,我们如果将这个变量声明为广播变量,那么每个executor都会拥有一份,这个executor启动的task会共享变量,节省了通信的成本和服务器的资源。而在更需要资源的Spark Streaming中,广播变量无非是将大变量传递给executor端最好的选择,但是流式程序启动之后无法在进行更新广播变量,优势在于,不需要重启程序则完成动态的更新,解决生产线上需要重启的弊端。