一种快速获取目标基因组区域比对结果数据的方法

基本信息

申请号 CN202110751896.7 申请日 -
公开(公告)号 CN113488106A 公开(公告)日 2021-10-08
申请公布号 CN113488106A 申请公布日 2021-10-08
分类号 G16B30/10(2019.01)I;G16B50/00(2019.01)I;G06F16/22(2019.01)I 分类 物理
发明人 栗海波;姜玥;梁萌萌 申请(专利权)人 苏州赛美科基因科技有限公司
代理机构 北京同辉知识产权代理事务所(普通合伙) 代理人 刘洪勋
地址 215100江苏省苏州市相城区高铁新城青龙港路58号天成时代商务广场17层
法律状态 -

摘要

摘要 本发明公开了一种快速获取目标基因组区域比对结果数据的方法,以样本原始测序数据为基础,利用公共基因组数据库,分别获得参考基因组序列文件与所有基因的坐标信息文件,并构建参考基因组索引文件与染色体索引文件;构建样本原始测序数据的序列行号与基因组比对坐标的映射关系,运用映射关系,快速重构出目标基因序列的样本原始测序数据;利用染色体索引文件和目标基因序列的样本原始测序数据进行序列比对,获得目标基因序列原始比对数据文件,再经过排序和去重,获得最终的目标基因组区域比对结果数据。这种方法具有部署简单、操作方便、高效性、高通量、适用范围广的特点。所得结果与原始二级数据BAM文件相比基本无信息损失。