基于Spark的Cassandra数据导入方法、装置、设备及介质
基本信息
申请号 | CN201911379699.6 | 申请日 | - |
公开(公告)号 | CN111143456A | 公开(公告)日 | 2020-05-12 |
申请公布号 | CN111143456A | 申请公布日 | 2020-05-12 |
分类号 | G06F16/25;G06F16/27 | 分类 | 计算;推算;计数; |
发明人 | 程万胜 | 申请(专利权)人 | 同盾(广州)科技有限公司 |
代理机构 | 杭州创智卓英知识产权代理事务所(普通合伙) | 代理人 | 张迪 |
地址 | 511457 广东省广州市南沙区南沙街进港大道8号905房 | ||
法律状态 | - |
摘要
摘要 | 本发明公开了一种基于Spark的Cassandra数据导入方法,涉及数据处理技术领域,用于解决现有通过Spark导入数据到Cassandra时,Cassandra性能降低的问题,该方法包括以下步骤:获取待导入数据的数据量及SSTable单文件大小,并根据所述数据量及SSTable单文件大小计算所需分区数量N;根据所述数据的Key计算token值;根据所述token值,将所述数据分配到所述N个分区中,并排序;使用CQLSSTableWriter读取排序后的所述数据,生成SSTable文件;并行处理所述SSTable文件,通过SSTableload将所述SSTable文件导入Cassandra集群。本发明还公开了一种基于Spark的Cassandra数据导入装置、电子设备和计算机存储介质。本发明通过Spark对数据进行分区,进而提高数据导入时,Cassandra的处理性能。 |
