高通量测序数据质量过滤方法和过滤装置
基本信息
申请号 | CN201611236128.3 | 申请日 | - |
公开(公告)号 | CN106777262B | 公开(公告)日 | 2020-07-03 |
申请公布号 | CN106777262B | 申请公布日 | 2020-07-03 |
分类号 | G06F16/174;G06F16/182;G16B15/00 | 分类 | - |
发明人 | 陈晨;王震;于伟文 | 申请(专利权)人 | 上海华点云生物科技有限公司 |
代理机构 | 北京邦信阳专利商标代理有限公司 | 代理人 | 上海华点云生物科技有限公司 |
地址 | 200335 上海市长宁区广顺路33号8幢490室 | ||
法律状态 | - |
摘要
摘要 | 本发明公开了一种对高通量测序数据进行质量过滤的方法和装置,所述方法包括:根据所述高通量测序数据为并行计算做准备;通过并行计算过滤掉准备好的数据中质量不达标的数据。确定质量转换方式;数据切分;生成并行计算的执行实体。将第一文件和第二文件分别转换为第一RDD和第二RDD;将第一RDD和第二RDD分别切分为第一partition组和第二partition组;将第一RDD和第二RDD合并为第三RDD;将第三RDD切分为第三partition组。生成对第三partition组进行并行计算的执行实体task。采用本发明的技术方案,能够大大提高对高通量测序数据进行质量过滤的执行速度。 |
