一种基于远程监督的同义词提取方法

基本信息

申请号 CN201811554878.4 申请日 -
公开(公告)号 CN109740149A 公开(公告)日 2019-05-10
申请公布号 CN109740149A 申请公布日 2019-05-10
分类号 G06F17/27(2006.01)I 分类 计算;推算;计数;
发明人 张涛; 刘前卫; 盛兴; 聂庆; 谢秋学; 贺芳; 雍志娟; 孙金; 吴培培; 常秀; 张楠; 商莹楠; 滕家雨; 赵生传; 张婷婷; 田书然 申请(专利权)人 英大传媒投资集团有限公司
代理机构 南京苏高专利商标事务所(普通合伙) 代理人 英大传媒投资集团有限公司; 国家电网有限公司; 南瑞集团有限公司; 国网山东省电力公司烟台供电公司
地址 100005 北京市东城区北京站西街19号
法律状态 -

摘要

摘要 本发明公开了一种基于远程监督的同义词提取方法,属于自然语言处理技术领域。该方法包括:建立领域中同义词的词汇句法模式模型;构建基于LSTM和CRF的远程监督神经网络学习模型,并使用领域词条进行训练,得到同义词发现的句子序列标注集;根据标注集,将语料库中的语句中的候选实体进行标注及配对,抽取实体后得到同义词。本发明通过利用基于百科知识库词条特性、结合领域同义词的相应词汇‑句法模式、通过远程监督学习和机器自主学习,获取领域同义词,该方法以机器处理为主,人工处理为辅,提高同义词获取的效率,在不降低精度的情况下,大幅降低人工成本。通过定期对在线百科的词条学习和对隐藏同义词的分析可以发现新词。