一种化学信息抽取模型的训练方法、抽取方法、装置、设备及存储介质
基本信息
申请号 | CN202110007886.2 | 申请日 | - |
公开(公告)号 | CN112699668A | 公开(公告)日 | 2021-04-23 |
申请公布号 | CN112699668A | 申请公布日 | 2021-04-23 |
分类号 | G06F40/216;G06F16/35;G16C20/70 | 分类 | 计算;推算;计数; |
发明人 | 钟实;张睿哲;宋悦飞;潘志锋 | 申请(专利权)人 | 广州楹鼎生物科技有限公司 |
代理机构 | 北京品源专利代理有限公司 | 代理人 | 孟金喆 |
地址 | 510610 广东省广州市天河区林和西路3-15号22层02房 | ||
法律状态 | - |
摘要
摘要 | 本发明公开了一种化学信息抽取模型的训练方法、抽取方法、装置、设备及存储介质。训练方法包括:获取训练集,训练集包括多条化工语句样本,化工语句样本标注有参考化学信息,对化工语句样本中的字符进行表征,得到各字符的表征向量,将表征向量输入化学信息抽取模型中进行处理,得到化工语句样本中存在参考化学信息的概率,基于概率和参考化学信息计算化工语句样本的交叉熵损失,基于交叉熵损失更新化学信息抽取模型的参数。通过上述化学信息抽取模型的训练方法训练出化学信息抽取模型,以便从包含非/半结构化数据的化学信息的化工文献中提取结构化数据,便于数据管理,对化工行业的科研、生产、实验提供巨大的帮助。 |
