一种基于SparkStreaming的转录因子结合位点识别发现方法及装置

基本信息

申请号 CN202011230684.6 申请日 -
公开(公告)号 CN112349349A 公开(公告)日 2021-02-09
申请公布号 CN112349349A 申请公布日 2021-02-09
分类号 G16B30/10(2019.01)I 分类 物理
发明人 李安亚 申请(专利权)人 西安奥卡云数据科技有限公司
代理机构 西安维赛恩专利代理事务所(普通合伙) 代理人 李明全
地址 710000陕西省西安市西咸新区秦汉新城周陵街办新庄村天工一路东段长信工业园6-2号
法律状态 -

摘要

摘要 本发明公开了一种基于Spark Streaming的转录因子结合位点识别发现方法和装置,根据转录因子结合位点的长度在转录因子中提取第一基因片段,根据每个第一基因片段确定其对应的候选基因片段集;将基因序列群分割为多个比较组;将每个第二基因片段与每个单位基因序列同时进行比较,当每个单位基因序列均具有第三基因片段时,根据第二基因片段确定转录因子的预测结合位点;遍历候选基因片段集,生成转录因子的结合位点集;本发明通过将基因序列群分为多个比较组,且结合Spark Streaming理论,同时将每个比较组中的每个单位基因序列与根据转录因子确定的第二基因片段进行比较,可以有效地提升整个方法的执行效率,减少转录因子结合位点识别过程中所消耗的时间。