一种基于模板生成的化学反应抽取器和抽取方法

基本信息

申请号 CN202010232913.1 申请日 -
公开(公告)号 CN111401050A 公开(公告)日 2020-07-10
申请公布号 CN111401050A 申请公布日 2020-07-10
分类号 G06F40/279(2020.01)I 分类 -
发明人 李鑫;张百成;鲍琦 申请(专利权)人 苏州机数芯微科技有限公司
代理机构 合肥市长远专利代理事务所(普通合伙) 代理人 苏州机数芯微科技有限公司
地址 215000江苏省苏州市苏州工业园区金鸡湖大道99号苏州纳米城1幢505-3室
法律状态 -

摘要

摘要 本发明提出的一种基于模板生成的化学反应抽取方法,包括:对csv文件中的摘要和标题进行合并后切分,获得作为抽取程序输入对象的句子集合;将获取的句子集合队列化,并获得反应模板;将队列化的句子集合和反应模板加载到抽取程序中,抽取程序通过反应模板对句子集合进行抽取,获得每一个句子的化学实体和反应,化学实体包括反应物和反应产物;对抽取的化学实体和反应进行过滤,筛选反应;根据分类器对筛选出的反应进行分类。本发明通过构建自然语言处理系统从PubMed中自动提取涵盖化学物质的反应。考虑到文献中摘要作为总览全文的浓缩段落,因此本发明主要是从PubMed摘要中提取单个句子中的反应,此方法也可以处理描述多个反应的句子。