批量数据处理方法、装置、终端设备及存储介质
基本信息
申请号 | CN202010015112.X | 申请日 | - |
公开(公告)号 | CN111241051A | 公开(公告)日 | 2020-06-05 |
申请公布号 | CN111241051A | 申请公布日 | 2020-06-05 |
分类号 | G06F16/182(2019.01)I | 分类 | 计算;推算;计数; |
发明人 | 杨阳;贺璟璐;陈旭 | 申请(专利权)人 | 深圳迅策科技有限公司 |
代理机构 | 深圳金伟创新专利代理事务所(普通合伙) | 代理人 | 韦永吉 |
地址 | 518000广东省深圳市南山区粤海街道高新园粤兴一道9号香港科技大学产学研大楼118A室 | ||
法律状态 | - |
摘要
摘要 | 本发明公开了一种批量数据处理方法、装置、终端设备及存储介质,属于大数据处理技术领域。本发明通过在kafka消息队列中创建一个空的Topic,在spark主函数中创建directStream,通过所述directStream从内存数据库中批量读取数据,并将读取的数据写入所述Topic,在将所述内存数据库中的数据读取完成后,对所述Topic中的数据进行处理,并将处理结果写入到kafka消息队列中,由于spark从内存数据库中读取批量数据,并行转换成DataSet,解决了使用Spark结合kafka不能解决的业务需求,从而大批量数据同步转换成Spark DataSet。 |
