一种化学信息抽取模型的训练方法、抽取方法、装置、设备及存储介质

基本信息

申请号 CN202110007886.2 申请日 -
公开(公告)号 CN112699668A 公开(公告)日 2021-04-23
申请公布号 CN112699668A 申请公布日 2021-04-23
分类号 G06F40/216;G06F16/35;G16C20/70 分类 计算;推算;计数;
发明人 钟实;张睿哲;宋悦飞;潘志锋 申请(专利权)人 广州楹鼎生物科技有限公司
代理机构 北京品源专利代理有限公司 代理人 孟金喆
地址 510610 广东省广州市天河区林和西路3-15号22层02房
法律状态 -

摘要

摘要 本发明公开了一种化学信息抽取模型的训练方法、抽取方法、装置、设备及存储介质。训练方法包括:获取训练集,训练集包括多条化工语句样本,化工语句样本标注有参考化学信息,对化工语句样本中的字符进行表征,得到各字符的表征向量,将表征向量输入化学信息抽取模型中进行处理,得到化工语句样本中存在参考化学信息的概率,基于概率和参考化学信息计算化工语句样本的交叉熵损失,基于交叉熵损失更新化学信息抽取模型的参数。通过上述化学信息抽取模型的训练方法训练出化学信息抽取模型,以便从包含非/半结构化数据的化学信息的化工文献中提取结构化数据,便于数据管理,对化工行业的科研、生产、实验提供巨大的帮助。