一种基于SparkStreaming的动态更新共享数据方法
基本信息
申请号 | CN202110043173.1 | 申请日 | - |
公开(公告)号 | CN112559227A | 公开(公告)日 | 2021-03-26 |
申请公布号 | CN112559227A | 申请公布日 | 2021-03-26 |
分类号 | G06F16/2455(2019.01)I;G06F9/54(2006.01)I;G06F8/656(2018.01)I | 分类 | 计算;推算;计数; |
发明人 | 齐博 | 申请(专利权)人 | 贵州省广播电视信息网络股份有限公司 |
代理机构 | 贵州启辰知识产权代理有限公司 | 代理人 | 赵彦栋;葛歆玮 |
地址 | 550081贵州省贵阳市观山湖区金阳南路36号 | ||
法律状态 | - |
摘要
摘要 | 本发明公开了一种基于Spark Streaming的动态更新共享数据方法,就Spark而言,大变量都会由Driver端来进行分发,这个大变量如果不是广播变量,那每一个task就会分发一份出来,这在task数目在十分多的情况下Driver端的带宽就会成为系统瓶颈,而且还会大量消耗task服务器的资源,我们如果将这个变量声明为广播变量,那么每个executor都会拥有一份,这个executor启动的task会共享变量,节省了通信的成本和服务器的资源。而在更需要资源的Spark Streaming中,广播变量无非是将大变量传递给executor端最好的选择,但是流式程序启动之后无法在进行更新广播变量,优势在于,不需要重启程序则完成动态的更新,解决生产线上需要重启的弊端。 |
