基于句法模式识别的药物小分子毒性预测的方法

基本信息

申请号 CN202010460271.0 申请日 -
公开(公告)号 CN111640470A 公开(公告)日 2020-09-08
申请公布号 CN111640470A 申请公布日 2020-09-08
分类号 G16C20/30(2019.01)I 分类 物理
发明人 牛张明;韦德·门佩斯-史密斯 申请(专利权)人 杭州德睿智药科技有限公司
代理机构 上海智晟知识产权代理事务所(特殊普通合伙) 代理人 牛张明;韦德·门佩斯-史密斯
地址 浙江省杭州市钱塘新区新加坡科技园15幢11楼
法律状态 -

摘要

摘要 本发明公开了一种基于句法模式识别的药物小分子毒性预测的方法,包括:获取数据集;对所述数据集进行预处理,包括将所述数据集中的所有化合物分子用SMILES表示,对所有分子的SMILES表达式做标准化处理,统一分子SMILES表达式中的原子、键、连接关系的编码方式和顺序,然后进行去重复化处理;对预处理的数据集进行编码,其中通过独热编码对SMILES序列的单个元素、单个数字、单个符号以及整个方括号看作一个基元片段。每个基元片段本身是具有化学意义和指向性的,任何基元片段的组合也是符合化学规则,所述所有分子的SMILES表达式转换为向量组合;构建句法模式识别模型;将向量组合输入所述句法模式识别模型,预估分子是否含有特定靶标的毒性;以及对所述句法模式识别模型进行评估。