使用机器学习对核酸序列进行分类的方法

基本信息

申请号 CN202110378157.8 申请日 -
公开(公告)号 CN113096740A 公开(公告)日 2021-07-09
申请公布号 CN113096740A 申请公布日 2021-07-09
分类号 G16B40/20(2019.01)I;G16B30/00(2019.01)I;G06N3/04(2006.01)I;G06N3/08(2006.01)I;G06K9/62(2006.01)I 分类 物理
发明人 赵增祥;张延明;杜楠;朱政英;王丽娜;侯全民 申请(专利权)人 北京诺赛基因组研究中心有限公司
代理机构 北京汉鼎理利专利代理事务所(特殊普通合伙) 代理人 潘满根
地址 100176北京市大兴区北京经济技术开发区永昌北路3号1号楼1层01
法律状态 -

摘要

摘要 本发明提供一种使用机器学习对核酸序列进行分类的方法,所述方法包括收集带有准确分类标签的核酸序列构建核酸序列数据库,将核酸序列数据库中所有核酸序列分割成等长度的短序列,从而形成短核酸序列均衡样本;提取核酸Kmer,形成核酸序列的Kmer字典;使用Kmer字典将短核酸序列均衡样本转化成数字信号;使用数字信号训练一个能对带有分类标签的核酸序列进行多分类的神经网络分类器;使用Kmer字典将待检测核酸序列转化成数字信号;然后将数字信号输入到训练好的神经网络分类器中,对待检测核酸序列进行分类。通过本发明的方法,能够准确快速地将待检测核酸序列与构建数据库中核酸序列的标签进行对应分类,并展示每个标签的可靠性分值,为后续研究提供参考,增加了模型的使用价值。