基于双向长短记忆模型的药物小分子活性预测的方法和系统

基本信息

申请号 CN202010464590.9 申请日 -
公开(公告)号 CN111640471A 公开(公告)日 2020-09-08
申请公布号 CN111640471A 申请公布日 2020-09-08
分类号 G16C20/30(2019.01)I 分类 物理
发明人 牛张明;韦德·门佩斯-史密斯 申请(专利权)人 杭州德睿智药科技有限公司
代理机构 上海智晟知识产权代理事务所(特殊普通合伙) 代理人 牛张明;韦德·门佩斯-史密斯
地址 浙江省杭州市钱塘新区新加坡科技园15幢11楼
法律状态 -

摘要

摘要 本发明公开了一种基于双向长短记忆模型的药物小分子活性预测的方法,包括:获取数据集;对所述数据集进行预处理,包括将所述数据集中的所有化合物分子用SMILES表示,对所有分子的SMILES表达式做标准化处理,统一分子SMILES表达式中的原子、键、连接关系的编码方式和顺序,利用分子的InChIKey,进行去重复化处理;对预处理的数据集进行编码,其中通过独热编码对SMILES序列的单个元素、单个数字、单个符号以及整个方括号看作一个序列令牌,每个令牌本身具有化学意义和指向性,任何令牌的组合符合化学规则;构建双向长短记忆核心片段识别模型;将编码数据输入所述双向长短记忆核心片段识别模型,得到隐藏状态矩;以及对上述双向长短记忆核心片段识别模型进行评估。