文字中提取多元组的方法和装置
基本信息
申请号 | CN201710280347.X | 申请日 | - |
公开(公告)号 | CN108733636B | 公开(公告)日 | 2021-07-13 |
申请公布号 | CN108733636B | 申请公布日 | 2021-07-13 |
分类号 | G06N3/08;G06K9/62;G06F40/10;G06F40/30 | 分类 | 计算;推算;计数; |
发明人 | 林得苗 | 申请(专利权)人 | 北京庖丁科技有限公司 |
代理机构 | 北京东方亿思知识产权代理有限责任公司 | 代理人 | 段月欣 |
地址 | 100091 北京市海淀区厢黄旗2号楼2层X06-205室 | ||
法律状态 | - |
摘要
摘要 | 本发明提供了一种文字中提取多元组的方法和装置,涉及文本处理领域。该文字中提取多元组的方法,包括:将带有合法标识和非法标识的训练数据输入循环神经网络,得到网络参数;识别待测文本中的多元实体,并对待测文本中除多元实体外的其他部分进行分词;按照在待测文本中的排列顺序,将多元实体的词向量和分词后得到的词语的词向量一一对应输入多个子网络中,结合网络参数,得到各子网络输出的隐向量,前一子网络输出的隐向量为后一子网络的输入;将组成多元组的多元实体对应的隐向量进行整合计算,得到判断向量;利用网络参数,对判断向量进行分类,得到分类结果;提取分类结果为合法的多元组,作为合法多元组。能够提高提取多元组的正确率。 |
