一种基因大数据分析与计算平台

基本信息

申请号 CN201910518741.1 申请日 -
公开(公告)号 CN112086134A 公开(公告)日 2020-12-15
申请公布号 CN112086134A 申请公布日 2020-12-15
分类号 G16B50/50(2019.01)I 分类 物理
发明人 陈墩金;周峻松;徐继峰;祁建明 申请(专利权)人 广州明领基因科技有限公司
代理机构 - 代理人 -
地址 510610广东省广州市天河区林和东路281号天伦控股大厦17层自编05单元
法律状态 -

摘要

摘要 本发明公开了一种基因大数据分析与计算平台,涉及基因大数据分析与计算平台领域,该平台由数据读取模块、数据压缩模块、数据分析模块、数据存储模块组成。数据读取模块用于读取DNA测序仪得到的FASTQ数据,并将输入FASTQ数据分割成元数据、碱基和质量分数三个数据流送入数据压缩模块;数据压缩模块将三个数据流独立地压缩:去除元数据流中的重复片段并使用LZMA算法进行压缩;对质量分数流使用游程编码和算术编码压缩;使用匹配工具BWA将短读与参考基因组比对,提取比对结果中的碱基流表达信息并使用LZMA算法、游程编码、算术编码进行压缩;数据分析模块用于将FASTQ数据进行短序列比对,提取比对结果中的SNP突变信息;数据存储模块采用分布式框架将数据放在不同的数据节点中存储,既保证了数据的可靠性,同时增加了数据的安全性。该平台针对DNA序列本身具有的冗余性进行压缩,减少了压缩所需的存储空间。