一种面向多条序列的基因序列数据压缩方法
基本信息
申请号 | CN201910197033.2 | 申请日 | - |
公开(公告)号 | CN109979537B | 公开(公告)日 | 2020-12-18 |
申请公布号 | CN109979537B | 申请公布日 | 2020-12-18 |
分类号 | G16B30/00;G16B40/00 | 分类 | 物理 |
发明人 | 季一木;李可;尧海昌;刘尚东;王汝传 | 申请(专利权)人 | 江苏航天龙梦信息技术有限公司 |
代理机构 | 南京瑞弘专利商标事务所(普通合伙) | 代理人 | 南京邮电大学;江苏航天龙梦信息技术有限公司 |
地址 | 210023 江苏省南京市新模范马路66号 | ||
法律状态 | - |
摘要
摘要 | 本发明提出一种面向多条序列的基因序列数据压缩方法,主要用于解决基因数据量过大,减小基因数据存储和传输成本问题。首先从待压缩基因序列中选取参考序列,其次,将非参考序列和参考序列采用不同的压缩方式进行压缩。对于非参考序列,通过与参考序列异或,然后进行矩阵划分和矩阵编码,最终将基因序列编码成二元组形式进行存储;对于参考序列,采用k‑mer算法进行单独压缩。采用本压缩方法的压缩比高,压缩速度快,而且二元组编码与基因次序无关,有利于分布式存储和分析基因序列。 |
