基于机器学习技术的SNAREs蛋白识别方法、系统、存储介质及设备
基本信息
申请号 | CN202111027448.9 | 申请日 | - |
公开(公告)号 | CN113724779B | 公开(公告)日 | 2022-06-17 |
申请公布号 | CN113724779B | 申请公布日 | 2022-06-17 |
分类号 | G16B5/00(2019.01)I;G16B30/10(2019.01)I;G16B40/00(2019.01)I;G16B50/00(2019.01)I;G06N20/00(2019.01)I | 分类 | 物理 |
发明人 | 汪国华;张子潇;邹权;杜军平 | 申请(专利权)人 | 电子科技大学长三角研究院(衢州) |
代理机构 | 哈尔滨市松花江专利商标事务所 | 代理人 | - |
地址 | 150040黑龙江省哈尔滨市香坊区和兴路26号 | ||
法律状态 | - |
摘要
摘要 | 基于机器学习技术的SNAREs蛋白识别方法、系统、存储介质及设备,属于生物信息技术领域。为了解决现有的蛋白质识别方法识别SNAREs蛋白存在时间开销大、准确率有待于提高的问题。本发明首先对蛋白序列文件,进行去冗余等预处理,通过BLAST比对提取蛋白序列的PSSM矩阵,从PSSM矩阵中获取蛋白质序列的特征数据,使用最大最小标准化算法对特征数据进行归一化处理,判断数据集的平衡状态,选择Smote‑ENN和Smote‑TOMEK采样算法解决不平衡问题;然后使用SVM‑RFE‑CBR算法对特征进行排序,剔除了排序靠后的噪声特征;使用机器学习中的分类器,使用交叉验证的方法训练模型,最终得到有效识别SNAREs蛋白的模型。主要用于SNAREs蛋白的识别。 |
