构建对核酸序列进行分类的模型方法及其应用

基本信息

申请号 CN202011523286.3 申请日 -
公开(公告)号 CN112599196B 公开(公告)日 2021-11-05
申请公布号 CN112599196B 申请公布日 2021-11-05
分类号 G16B30/00;G16B40/00 分类 物理
发明人 张延明;赵增祥;杜楠;张萱;朱政英;万丽君;王丽娜;侯全民 申请(专利权)人 北京诺赛基因组研究中心有限公司
代理机构 北京汉鼎理利专利代理事务所(特殊普通合伙) 代理人 潘满根
地址 100176 北京市大兴区北京经济技术开发区永昌北路3号1号楼1层01
法律状态 -

摘要

摘要 本发明提供一种构建对核酸序列进行分类的模型方法,所述方法包括收集带有准确分类标签的核酸序列构建核酸序列数据库,将核酸序列数据库中所有核酸序列分割成等长度的短序列,从而形成短核酸序列均衡样本,根据所述核酸序列数据库中的核酸序列,提取核酸Kmer,形成核酸序列的Kmer字典;将短核酸序列均衡样本转化成数字信号;使用数字信号训练一个能对核酸序列进行多分类的神经网络分类器。通过本发明方法构建的模型,能够准确快速地将待测核酸序列与数据库中的核酸序列标签进行对应分类,并展示每个标签的可靠性分值,通过可靠性分值可以判定待检测核酸序列是否由数据库中的序列重组而成,或者根据同一样本基因组上的不同核酸序列片段的检测结果进一步确定样本的标签。