一种基于模板生成的化学反应抽取器和抽取方法
基本信息
申请号 | CN202010232913.1 | 申请日 | - |
公开(公告)号 | CN111401050A | 公开(公告)日 | 2020-07-10 |
申请公布号 | CN111401050A | 申请公布日 | 2020-07-10 |
分类号 | G06F40/279(2020.01)I | 分类 | - |
发明人 | 李鑫;张百成;鲍琦 | 申请(专利权)人 | 苏州机数芯微科技有限公司 |
代理机构 | 合肥市长远专利代理事务所(普通合伙) | 代理人 | 苏州机数芯微科技有限公司 |
地址 | 215000江苏省苏州市苏州工业园区金鸡湖大道99号苏州纳米城1幢505-3室 | ||
法律状态 | - |
摘要
摘要 | 本发明提出的一种基于模板生成的化学反应抽取方法,包括:对csv文件中的摘要和标题进行合并后切分,获得作为抽取程序输入对象的句子集合;将获取的句子集合队列化,并获得反应模板;将队列化的句子集合和反应模板加载到抽取程序中,抽取程序通过反应模板对句子集合进行抽取,获得每一个句子的化学实体和反应,化学实体包括反应物和反应产物;对抽取的化学实体和反应进行过滤,筛选反应;根据分类器对筛选出的反应进行分类。本发明通过构建自然语言处理系统从PubMed中自动提取涵盖化学物质的反应。考虑到文献中摘要作为总览全文的浓缩段落,因此本发明主要是从PubMed摘要中提取单个句子中的反应,此方法也可以处理描述多个反应的句子。 |
