一种从FASTQ文件中快速判断样本性别的方法

基本信息

申请号 CN202111149249.5 申请日 -
公开(公告)号 CN113793641A 公开(公告)日 2021-12-14
申请公布号 CN113793641A 申请公布日 2021-12-14
分类号 G16B30/00 分类 物理
发明人 吴星辰;栗海波;梁萌萌;余伟师 申请(专利权)人 苏州赛美科基因科技有限公司
代理机构 北京同辉知识产权代理事务所(普通合伙) 代理人 刘洪勋
地址 215100 江苏省苏州市相城区高铁新城青龙港路58号天成时代商务广场17层
法律状态 -

摘要

摘要 本发明公开了一种从FASTQ文件中快速判断样本性别的方法,包括:(1)根据参考基因组,生成Y染色体上特有的K‑mer;(2)获取全外显子组测序捕获探针的设计区间的交集,剔除在交集外的K‑mer,将留存的K‑mer以在捕获探针的设计区间出现的次数从多到少的顺序排列,选取靠前的K‑mer作为特有K‑mer集合;(3)随机读取FASTQ文件,对特有K‑mer进行计数,并使用相同男女数量的真实数据分析特有K‑mer在不同性别FASTQ文件中的分布差异,确定性别判断阈值;(4)根据阈值,对FASTQ文件进行性别判定。该方法适用于NGS的多种数据类型,分析流程简单,操作方便,大大提高了判断效率。