基于预训练语言模型的蛋白质构象感知表示学习方法

基本信息

申请号 CN202210122014.5 申请日 -
公开(公告)号 CN114678061A 公开(公告)日 2022-06-28
申请公布号 CN114678061A 申请公布日 2022-06-28
分类号 G16B5/00(2019.01)I;G16B35/00(2019.01)I;G16B40/00(2019.01)I;G06K9/62(2022.01)I 分类 物理
发明人 张强;王泽元;韩玉强;陈华钧 申请(专利权)人 浙江大学杭州国际科创中心
代理机构 杭州天勤知识产权代理有限公司 代理人 -
地址 311200浙江省杭州市萧山区建设三路733号
法律状态 -

摘要

摘要 本发明公开了一种基于预训练语言模型的蛋白质构象感知表示学习方法,包括:获取由氨基酸序列组成的蛋白质,根据蛋白质构象构建不同数据集,为每类蛋白质构象定义提示符;基于预训练语言模型构建表示学习模块,用于将每类提示符的嵌入表示融合到蛋白质的嵌入表示,以得到提示符标识下的蛋白质嵌入表示;构建任务模块,用于针对每类蛋白质构象对应的任务,基于提示符标识下的蛋白质嵌入表示进行任务预测;基于任务预测结果和标签构建每类任务的损失函数,结合所有类任务的损失函数和不同数据集,更新表示学习模块和任务模块的模型参数;模型参数更新结束后,提取表示学习模块作为蛋白质表示模块。该方法能够得到不同构象下的蛋白质表示。