一种用于解读二代测序结果所需数据的提取方法

基本信息

申请号 CN202111200370.6 申请日 -
公开(公告)号 CN113643761A 公开(公告)日 2021-11-12
申请公布号 CN113643761A 申请公布日 2021-11-12
分类号 G16B50/30(2019.01)I;G16B50/10(2019.01)I;G16B25/00(2019.01)I;G06F16/22(2019.01)I 分类 物理
发明人 谢欣;余伟师;梁萌萌;付宏旭;李鹏飞 申请(专利权)人 苏州赛美科基因科技有限公司
代理机构 北京同辉知识产权代理事务所(普通合伙) 代理人 刘洪勋
地址 215000 江苏省苏州市工业园区星湖街218号5幢生物纳米园A4-309、310、311室
法律状态 -

摘要

摘要 本发明公开了一种用于解读二代测序结果所需数据的提取方法,属于数据处理的技术领域,包括以下步骤:S1:将映射版本标签置于TSV文件的首行,并发送到推送系统并入列式数据库保存;S2:生成元数据来记录BAM文件的相关信息,使其能够与对应的TSV文件的注释信息进行匹配,并发送到推送系统并入关系型行式数据库保存;S3:录入受检者临床表型信息,并发送到推送系统并入关系型行式数据库保存;其中,步骤S1、S2和S3同步完成。本发明能够克服现有技术在提取解读二代测序结果所需要的三项数据时存在的难以应对TSV文件表头行变化、提取BAM文件需要人工介入和缺少主索引关联同一受检者的缺陷。