一种海量DNA测序数据无损快速压缩平台
基本信息
申请号 | CN201810018495.9 | 申请日 | - |
公开(公告)号 | CN110111852A | 公开(公告)日 | 2019-08-09 |
申请公布号 | CN110111852A | 申请公布日 | 2019-08-09 |
分类号 | G16B50/50;G06F16/907;G06F16/901 | 分类 | 物理 |
发明人 | 陈墩金;徐继峰;周峻松;祁建明 | 申请(专利权)人 | 广州明领基因科技有限公司 |
代理机构 | - | 代理人 | - |
地址 | 510610 广东省广州市天河区林和东路281号天伦控股大厦17层自编05单元 | ||
法律状态 | - |
摘要
摘要 | 本发明公开了一种海量DNA测序数据无损快速压缩平台,涉及DNA测序数据压缩平台领域,该平台将输入FASTQ数据分割成元数据、碱基和质量分数三个数据流,并根据它们自身特点分别独立地压缩:去除元数据流中的重复片段并使用LZMA算法进行压缩;对质量分数流使用游程编码和算术编码压缩;使用匹配工具BWA将短读与参考基因组比对,提取比对结果中的碱基流表达信息并使用LZMA算法、游程编码、算术编码进行压缩。该平台针对DNA序列本身具有的冗余性进行压缩,减少了压缩所需的存储空间。 |
