一种自动清洗化学反应噪声数据的方法及系统

基本信息

申请号 CN202111214208.X 申请日 -
公开(公告)号 CN113886377A 公开(公告)日 2022-01-04
申请公布号 CN113886377A 申请公布日 2022-01-04
分类号 G06F16/215(2019.01)I;G16C20/10(2019.01)I;G16C20/70(2019.01)I;G16C20/90(2019.01)I 分类 计算;推算;计数;
发明人 陈慧敏;方什;陈德铭 申请(专利权)人 上海药明康德新药开发有限公司
代理机构 上海市汇业律师事务所 代理人 王函
地址 200131上海市浦东新区中国(上海)自由贸易试验区富特中路288号1号楼
法律状态 -

摘要

摘要 本发明公开了一种自动清洗化学反应噪声数据的方法与系统,方法包含获取反应结构式的数据集并进行标准化处理与去重得到预处理数据;去掉预处理数据中所有多产物反应数据,仅保留预处理数据中单产物反应数据进行训练得到一个正向合成算法模型;取出预处理数据中多产物反应数据中的反应物输入至正向合成算法模型中得到预测产物;判断预测产物是否为多产物中任一个产物;是则将该多产物反应数据中的多产物替换成预测产物后加入到训练数据集中;否则删除;处理全部多产物反应数据得到清洗过的训练数据集并训练新正向模型;系统包含反应结构式数据预处理模块、正向合成算法模型训练模块、多产物反应数据预测模块、判断模块、新的正向模型训练模块。