高通量测序数据质量过滤方法和过滤装置
基本信息
申请号 | CN201611236128.3 | 申请日 | - |
公开(公告)号 | CN106777262A | 公开(公告)日 | 2017-05-31 |
申请公布号 | CN106777262A | 申请公布日 | 2017-05-31 |
分类号 | G06F17/30(2006.01)I;G06F19/16(2011.01)I | 分类 | 计算;推算;计数; |
发明人 | 陈晨;王震;于伟文 | 申请(专利权)人 | 上海华点云生物科技有限公司 |
代理机构 | 北京邦信阳专利商标代理有限公司 | 代理人 | 上海华点云生物科技有限公司 |
地址 | 200335 上海市长宁区广顺路33号8幢490室 | ||
法律状态 | - |
摘要
摘要 | 本发明公开了一种对高通量测序数据进行质量过滤的方法和装置,所述方法包括:根据所述高通量测序数据为并行计算做准备;通过并行计算过滤掉准备好的数据中质量不达标的数据。确定质量转换方式;数据切分;生成并行计算的执行实体。将第一文件和第二文件分别转换为第一RDD和第二RDD;将第一RDD和第二RDD分别切分为第一partition组和第二partition组;将第一RDD和第二RDD合并为第三RDD;将第三RDD切分为第三partition组。生成对第三partition组进行并行计算的执行实体task。采用本发明的技术方案,能够大大提高对高通量测序数据进行质量过滤的执行速度。 |
