一种基因大数据分析与计算平台
基本信息
申请号 | CN201910518741.1 | 申请日 | - |
公开(公告)号 | CN112086134A | 公开(公告)日 | 2020-12-15 |
申请公布号 | CN112086134A | 申请公布日 | 2020-12-15 |
分类号 | G16B50/50(2019.01)I | 分类 | 物理 |
发明人 | 陈墩金;周峻松;徐继峰;祁建明 | 申请(专利权)人 | 广州明领基因科技有限公司 |
代理机构 | - | 代理人 | - |
地址 | 510610广东省广州市天河区林和东路281号天伦控股大厦17层自编05单元 | ||
法律状态 | - |
摘要
摘要 | 本发明公开了一种基因大数据分析与计算平台,涉及基因大数据分析与计算平台领域,该平台由数据读取模块、数据压缩模块、数据分析模块、数据存储模块组成。数据读取模块用于读取DNA测序仪得到的FASTQ数据,并将输入FASTQ数据分割成元数据、碱基和质量分数三个数据流送入数据压缩模块;数据压缩模块将三个数据流独立地压缩:去除元数据流中的重复片段并使用LZMA算法进行压缩;对质量分数流使用游程编码和算术编码压缩;使用匹配工具BWA将短读与参考基因组比对,提取比对结果中的碱基流表达信息并使用LZMA算法、游程编码、算术编码进行压缩;数据分析模块用于将FASTQ数据进行短序列比对,提取比对结果中的SNP突变信息;数据存储模块采用分布式框架将数据放在不同的数据节点中存储,既保证了数据的可靠性,同时增加了数据的安全性。该平台针对DNA序列本身具有的冗余性进行压缩,减少了压缩所需的存储空间。 |
