一种基于机器学习的催化剂抽取方法

基本信息

申请号 CN202010220300.6 申请日 -
公开(公告)号 CN111401054A 公开(公告)日 2020-07-10
申请公布号 CN111401054A 申请公布日 2020-07-10
分类号 G06F40/284(2020.01)I;G06N20/00(2019.01)I 分类 -
发明人 李鑫;沈伟;鲍琦 申请(专利权)人 苏州机数芯微科技有限公司
代理机构 合肥市长远专利代理事务所(普通合伙) 代理人 苏州机数芯微科技有限公司
地址 215000江苏省苏州市苏州工业园区金鸡湖大道99号苏州纳米城1幢505-3室
法律状态 -

摘要

摘要 本发明提出的一种基于机器学习的催化剂抽取方法,包括以下步骤:获取文本,并将文本中的词语进行分解并标准化处理;通过化学领域的文字标注工具对分解后的词语标记相应的POS标记以及CHUNK标记,将带有POS标记和CHUNK标记的词语进行序列化形成特征序列;通过预设的抽取模型对特征序列进行催化剂实体的识别抽取。本发明首先通过词语分解,实现了文本的特征提取,并实现了对文本冗余信息的清洗,降低了后续处理的工作量,提高了工作效率;同时,通过特征提取,也实现了对文本的精炼,从而提高了信息抽取精确程度。且,本实施方式中,通过机器学习模型抽取催化剂,智能化程度高,并且可靠。