一种基于机器学习的催化剂抽取方法
基本信息
申请号 | CN202010220300.6 | 申请日 | - |
公开(公告)号 | CN111401054A | 公开(公告)日 | 2020-07-10 |
申请公布号 | CN111401054A | 申请公布日 | 2020-07-10 |
分类号 | G06F40/284(2020.01)I;G06N20/00(2019.01)I | 分类 | - |
发明人 | 李鑫;沈伟;鲍琦 | 申请(专利权)人 | 苏州机数芯微科技有限公司 |
代理机构 | 合肥市长远专利代理事务所(普通合伙) | 代理人 | 苏州机数芯微科技有限公司 |
地址 | 215000江苏省苏州市苏州工业园区金鸡湖大道99号苏州纳米城1幢505-3室 | ||
法律状态 | - |
摘要
摘要 | 本发明提出的一种基于机器学习的催化剂抽取方法,包括以下步骤:获取文本,并将文本中的词语进行分解并标准化处理;通过化学领域的文字标注工具对分解后的词语标记相应的POS标记以及CHUNK标记,将带有POS标记和CHUNK标记的词语进行序列化形成特征序列;通过预设的抽取模型对特征序列进行催化剂实体的识别抽取。本发明首先通过词语分解,实现了文本的特征提取,并实现了对文本冗余信息的清洗,降低了后续处理的工作量,提高了工作效率;同时,通过特征提取,也实现了对文本的精炼,从而提高了信息抽取精确程度。且,本实施方式中,通过机器学习模型抽取催化剂,智能化程度高,并且可靠。 |
