一种海量DNA测序数据无损快速压缩平台

基本信息

申请号 CN201810018495.9 申请日 -
公开(公告)号 CN110111852A 公开(公告)日 2019-08-09
申请公布号 CN110111852A 申请公布日 2019-08-09
分类号 G16B50/50;G06F16/907;G06F16/901 分类 物理
发明人 陈墩金;徐继峰;周峻松;祁建明 申请(专利权)人 广州明领基因科技有限公司
代理机构 - 代理人 -
地址 510610 广东省广州市天河区林和东路281号天伦控股大厦17层自编05单元
法律状态 -

摘要

摘要 本发明公开了一种海量DNA测序数据无损快速压缩平台,涉及DNA测序数据压缩平台领域,该平台将输入FASTQ数据分割成元数据、碱基和质量分数三个数据流,并根据它们自身特点分别独立地压缩:去除元数据流中的重复片段并使用LZMA算法进行压缩;对质量分数流使用游程编码和算术编码压缩;使用匹配工具BWA将短读与参考基因组比对,提取比对结果中的碱基流表达信息并使用LZMA算法、游程编码、算术编码进行压缩。该平台针对DNA序列本身具有的冗余性进行压缩,减少了压缩所需的存储空间。