一种基于双向LSTM和CRF的命名实体识别方法

基本信息

申请号 CN201710874154.7 申请日 -
公开(公告)号 CN107644014A 公开(公告)日 2018-01-30
申请公布号 CN107644014A 申请公布日 2018-01-30
分类号 G06F17/27;G06F17/21;G06N3/08 分类 计算;推算;计数;
发明人 薛涵凛;顾孙炎 申请(专利权)人 南京安链数据科技有限公司
代理机构 - 代理人 -
地址 210000 江苏省南京市雨花台区雨花经济开发区凤华路18号1幢B315-6室
法律状态 -

摘要

摘要 本发明公开了一种基于双向LSTM和CRF的命名实体识别方法,该方法是基于现有的传统命名实体识别算法进行的改进优化,具体步骤如下:(1)对文本进行预处理,提取文本词组信息和字符信息。(2)利用双向LSTM神经网络对文本字符信息进行编码转换成字符向量。(3)利用glove模型对文本词组信息进行编码转换成词向量。(4)将字符向量和词向量组合成上下文信息向量,并放入双向LSTM神经网络中。(5)利用线性链条件随机场对双向LSTM的输出进行解码,得到文本标注实体。本发明利用深度神经网络提取文本特征,结合条件随机场进行解码,可以有效提取文本特征信息并且能够在不同语言的实体识别任务上取得很好的效果。