一种分布式基因大数据存储平台

基本信息

申请号 CN201810024030.4 申请日 -
公开(公告)号 CN110120247A 公开(公告)日 2019-08-13
申请公布号 CN110120247A 申请公布日 2019-08-13
分类号 G16B30/00;G16B50/00;H03M7/30;H03M7/40 分类 物理
发明人 陈墩金;祁建明;周峻松;徐继峰 申请(专利权)人 广州明领基因科技有限公司
代理机构 - 代理人 -
地址 510610 广东省广州市天河区林和东路281号天伦控股大厦17层自编05单元
法律状态 -

摘要

摘要 本发明公开了一种分布式基因大数据存储平台,涉及基因大数据压缩平台领域,该平台将输入FASTQ数据分割成元数据、碱基和质量分数三个数据流,并根据它们自身特点分别独立地压缩:去除元数据流中的重复片段并使用LZMA算法进行压缩;对质量分数流使用游程编码和算术编码压缩;使用匹配工具BWA将短读与参考基因组比对,提取比对结果中的碱基流表达信息并使用LZMA算法、游程编码、算术编码进行压缩;最后采用分布式框架将数据放在不同的数据节点中存储,既保证了数据的可靠性,同时增加了数据的安全性。该平台针对DNA序列本身具有的冗余性进行压缩,减少了压缩所需的存储空间。