高通量测序数据统计方法和统计装置
基本信息
申请号 | CN201611236130.0 | 申请日 | - |
公开(公告)号 | CN106709028A | 公开(公告)日 | 2017-05-24 |
申请公布号 | CN106709028A | 申请公布日 | 2017-05-24 |
分类号 | G06F17/30(2006.01)I;G06F19/16(2011.01)I | 分类 | 计算;推算;计数; |
发明人 | 陈晨;王震;于伟文 | 申请(专利权)人 | 上海华点云生物科技有限公司 |
代理机构 | 北京邦信阳专利商标代理有限公司 | 代理人 | 上海华点云生物科技有限公司 |
地址 | 200335 上海市长宁区广顺路33号8幢490室 | ||
法律状态 | - |
摘要
摘要 | 本发明公开了一种高通量测序数据统计方法和装置,所述方法包括:根据高通量测序数据为并行计算做准备;对准备好的高通量测序数据进行并行计算;将并行计算结果汇总得出统计数据。确定碱基质量值转换方式;切分数据;生成执行实体。将文件转换为RDD;将RDD切分为partition。生成执行实体task。计算每个数据块中与序列行相关的统计信息以及碱基质量值。统计每一列的碱基质量值分布。本发明的技术方案极大地提高了对高通量测序数据进行统计的速度。 |
