基于机器学习技术的SNAREs蛋白识别方法、系统、存储介质及设备

基本信息

申请号 CN202111027448.9 申请日 -
公开(公告)号 CN113724779B 公开(公告)日 2022-06-17
申请公布号 CN113724779B 申请公布日 2022-06-17
分类号 G16B5/00(2019.01)I;G16B30/10(2019.01)I;G16B40/00(2019.01)I;G16B50/00(2019.01)I;G06N20/00(2019.01)I 分类 物理
发明人 汪国华;张子潇;邹权;杜军平 申请(专利权)人 电子科技大学长三角研究院(衢州)
代理机构 哈尔滨市松花江专利商标事务所 代理人 -
地址 150040黑龙江省哈尔滨市香坊区和兴路26号
法律状态 -

摘要

摘要 基于机器学习技术的SNAREs蛋白识别方法、系统、存储介质及设备,属于生物信息技术领域。为了解决现有的蛋白质识别方法识别SNAREs蛋白存在时间开销大、准确率有待于提高的问题。本发明首先对蛋白序列文件,进行去冗余等预处理,通过BLAST比对提取蛋白序列的PSSM矩阵,从PSSM矩阵中获取蛋白质序列的特征数据,使用最大最小标准化算法对特征数据进行归一化处理,判断数据集的平衡状态,选择Smote‑ENN和Smote‑TOMEK采样算法解决不平衡问题;然后使用SVM‑RFE‑CBR算法对特征进行排序,剔除了排序靠后的噪声特征;使用机器学习中的分类器,使用交叉验证的方法训练模型,最终得到有效识别SNAREs蛋白的模型。主要用于SNAREs蛋白的识别。