一种面向多条序列的基因序列数据压缩方法

基本信息

申请号 CN201910197033.2 申请日 -
公开(公告)号 CN109979537B 公开(公告)日 2020-12-18
申请公布号 CN109979537B 申请公布日 2020-12-18
分类号 G16B30/00;G16B40/00 分类 物理
发明人 季一木;李可;尧海昌;刘尚东;王汝传 申请(专利权)人 江苏航天龙梦信息技术有限公司
代理机构 南京瑞弘专利商标事务所(普通合伙) 代理人 南京邮电大学;江苏航天龙梦信息技术有限公司
地址 210023 江苏省南京市新模范马路66号
法律状态 -

摘要

摘要 本发明提出一种面向多条序列的基因序列数据压缩方法,主要用于解决基因数据量过大,减小基因数据存储和传输成本问题。首先从待压缩基因序列中选取参考序列,其次,将非参考序列和参考序列采用不同的压缩方式进行压缩。对于非参考序列,通过与参考序列异或,然后进行矩阵划分和矩阵编码,最终将基因序列编码成二元组形式进行存储;对于参考序列,采用k‑mer算法进行单独压缩。采用本压缩方法的压缩比高,压缩速度快,而且二元组编码与基因次序无关,有利于分布式存储和分析基因序列。