一种基于关键词匹配的实体抽取方法及系统

基本信息

申请号 CN202111470754.X 申请日 -
公开(公告)号 CN114154495A 公开(公告)日 2022-03-08
申请公布号 CN114154495A 申请公布日 2022-03-08
分类号 G06F40/284(2020.01)I;G06F40/295(2020.01)I;G06F40/247(2020.01)I 分类 计算;推算;计数;
发明人 王善和;刘昊;李森 申请(专利权)人 海南港航控股有限公司
代理机构 武汉华之喻知识产权代理有限公司 代理人 廖盈春;曹葆青
地址 570311海南省海口市滨海大道96号
法律状态 -

摘要

摘要 本发明公开了一种基于关键词匹配的实体抽取方法及系统,用于中文文本的实体抽取,其中,实体抽取方法包括:预处理步骤,结构化文本抽取步骤,非结构化文本抽取步骤和合并步骤;本发明根据设定的主题,不断从互联网获取初始关键词的近义词并加入关键词库;从结构化文本和非结构化文本中抽取关键词库中关键词的近义词,并加入关键词库;本发明采用不同的实体抽取方法从结构化文本和非结构化文本抽取出实体,并统一采用键值对的表示方式,得到该主题的最终实体集;本发明关键词库中的近义词较为丰富,能显著提高实体抽取的效果,减少漏抽取的情况。