基于分子语义向量的无监督学习药物虚拟筛选方法和系统
基本信息
申请号 | CN202010920613.2 | 申请日 | - |
公开(公告)号 | CN112151127A | 公开(公告)日 | 2020-12-29 |
申请公布号 | CN112151127A | 申请公布日 | 2020-12-29 |
分类号 | G16C20/50(2019.01)I | 分类 | 物理 |
发明人 | 牛张明;郑双佳;江荧辉 | 申请(专利权)人 | 杭州德睿智药科技有限公司 |
代理机构 | 上海智晟知识产权代理事务所(特殊普通合伙) | 代理人 | 牛张明;韦德·门佩斯-史密斯;韦德 门佩斯 史密斯 |
地址 | 浙江省杭州市钱塘新区新加坡科技园15幢11楼 | ||
法律状态 | - |
摘要
摘要 | 本发明公开了一种基于分子语义向量的无监督学习药物虚拟筛选方法,包括:建立预训练数据库;构建候选集数据库D1;构建目标化合物库D2;对所述预训练数据库、候选集数据库D1和目标化合物库D2进行数据预处理,将所述预训练数据库、候选集数据库D1和目标化合物库D2中所有化合物转换成适合机器学习的文件储存格式的数据集;建立无监督深度学习的小分子量化模型,并用预训练数据库中的数据对量化模型进行预训练得到经训练的量化模型;利用经训练的量化模型对所述候选集数据库D1和目标化合物库D2中的数据进行量化,得到候选集量化结果矩阵Va和目标化合物库量化结果矩阵Vb;利用空间向量相似度算法计算候选集量化结果矩阵Va和目标化合物库量化结果矩阵Vb的相似度得分矩阵R;以及通过对相似度得分矩阵R中的结果进行综合排序,挑选出候选集数据库D1中综合得分最高的前K个化合物。 |
