高通量测序数据质量过滤方法和过滤装置

基本信息

申请号 CN201611236128.3 申请日 -
公开(公告)号 CN106777262B 公开(公告)日 2020-07-03
申请公布号 CN106777262B 申请公布日 2020-07-03
分类号 G06F16/174;G06F16/182;G16B15/00 分类 -
发明人 陈晨;王震;于伟文 申请(专利权)人 上海华点云生物科技有限公司
代理机构 北京邦信阳专利商标代理有限公司 代理人 上海华点云生物科技有限公司
地址 200335 上海市长宁区广顺路33号8幢490室
法律状态 -

摘要

摘要 本发明公开了一种对高通量测序数据进行质量过滤的方法和装置,所述方法包括:根据所述高通量测序数据为并行计算做准备;通过并行计算过滤掉准备好的数据中质量不达标的数据。确定质量转换方式;数据切分;生成并行计算的执行实体。将第一文件和第二文件分别转换为第一RDD和第二RDD;将第一RDD和第二RDD分别切分为第一partition组和第二partition组;将第一RDD和第二RDD合并为第三RDD;将第三RDD切分为第三partition组。生成对第三partition组进行并行计算的执行实体task。采用本发明的技术方案,能够大大提高对高通量测序数据进行质量过滤的执行速度。