数据分区存储方法及装置

基本信息

申请号 CN202011187097.3 申请日 -
公开(公告)号 CN112233727A 公开(公告)日 2021-01-15
申请公布号 CN112233727A 申请公布日 2021-01-15
分类号 G16B50/30;G16B20/30;G16B20/50 分类 物理
发明人 孙成全;李雷;曹银川;成岗;刘冰;吴俊;李瑞强 申请(专利权)人 北京诺禾致源科技股份有限公司
代理机构 北京康信知识产权代理有限责任公司 代理人 北京诺禾致源科技股份有限公司
地址 102200 北京市昌平区回龙观镇生命园路29号创新大厦B258室
法律状态 -

摘要

摘要 本发明公开了一种数据分区存储方法及装置。其中,该方法包括:在预定数据仓库中初始化存储基因突变位点的分区表;根据多个基因突变位点中每一个基因突变位点对应的数据区间将分区表分为多个子区域;获取待存储的目标基因突变位点的起点数值和终点数值;基于目标基因突变位点的起点数值和终点数据将目标基因突变位点匹配并存储到分区表的一个或多个子区域中。本发明解决了相关技术中人类全基因组变异检测结果数据在hive数据仓库分区数目过多或过少,以及分区数据量不均衡的技术问题。