批量数据处理方法、装置、终端设备及存储介质

基本信息

申请号 CN202010015112.X 申请日 -
公开(公告)号 CN111241051A 公开(公告)日 2020-06-05
申请公布号 CN111241051A 申请公布日 2020-06-05
分类号 G06F16/182(2019.01)I 分类 计算;推算;计数;
发明人 杨阳;贺璟璐;陈旭 申请(专利权)人 深圳迅策科技有限公司
代理机构 深圳金伟创新专利代理事务所(普通合伙) 代理人 韦永吉
地址 518000广东省深圳市南山区粤海街道高新园粤兴一道9号香港科技大学产学研大楼118A室
法律状态 -

摘要

摘要 本发明公开了一种批量数据处理方法、装置、终端设备及存储介质,属于大数据处理技术领域。本发明通过在kafka消息队列中创建一个空的Topic,在spark主函数中创建directStream,通过所述directStream从内存数据库中批量读取数据,并将读取的数据写入所述Topic,在将所述内存数据库中的数据读取完成后,对所述Topic中的数据进行处理,并将处理结果写入到kafka消息队列中,由于spark从内存数据库中读取批量数据,并行转换成DataSet,解决了使用Spark结合kafka不能解决的业务需求,从而大批量数据同步转换成Spark DataSet。