一种基于多连体特征的T细胞受体对应表位预测方法
基本信息
申请号 | CN202010198109.6 | 申请日 | - |
公开(公告)号 | CN111429965A | 公开(公告)日 | 2020-07-17 |
申请公布号 | CN111429965A | 申请公布日 | 2020-07-17 |
分类号 | G16B15/30;G16B30/10;G16B40/00 | 分类 | - |
发明人 | 王嘉寅;童瑶;杨玲;郑田;刘涛;李敏;张选平 | 申请(专利权)人 | 北京吉因加科技有限公司 |
代理机构 | 西安通大专利代理有限责任公司 | 代理人 | 北京吉因加科技有限公司;西安交通大学 |
地址 | 710049 陕西省西安市咸宁西路28号 | ||
法律状态 | - |
摘要
摘要 | 本发明公开了一种基于多连体特征的T细胞受体对应表位预测方法,将CDR3β链以及对应的表位解析为长度3的碱基,统计每种三联体的频次作为初始特征;根据得到的初始特征建立初始特征矩阵,使用主成分分析法对初始特征矩阵进行降维,进行特征提取;设有n个训练样本,输入预测数据x后,训练得到梯度提升决策树模型,通过梯度提升决策树模型将各个决策树的决策结果线性组合起来做出预测;将特征数据输入训练好的模型中进行预测,根据不同的预测目的选择不同的预测指标。本发明仅使用三联体的统计值作为初始特征,结合梯度提升决策树模型能够在极短的时间内完成模型的训练,且预测的准确度更高。 |
