术语识别方法及装置
基本信息
申请号 | CN201710868929.X | 申请日 | - |
公开(公告)号 | CN107818080A | 公开(公告)日 | 2018-03-20 |
申请公布号 | CN107818080A | 申请公布日 | 2018-03-20 |
分类号 | G06F17/27;G06N3/04;G06N3/08 | 分类 | 计算;推算;计数; |
发明人 | 田亮;孙凡;武琼 | 申请(专利权)人 | 新译信息科技(北京)有限公司 |
代理机构 | 北京同立钧成知识产权代理有限公司 | 代理人 | 闵南燕;刘芳 |
地址 | 100102 北京市朝阳区望京东园四区7号楼绿地中心B座2005/2006室 | ||
法律状态 | - |
摘要
摘要 | 本发明提供一种术语识别方法及装置,通过获取数据集,对数据集进行数据处理,得到分词词集;对分词词集进行训练,得到词向量集合;将词向量集合作为输入,输入到包含至少3层结构的预设模型中;其中,预设模型包括:窗口层、至少一层隐藏层、输出层;词向量集合从窗口层输入,经过隐藏层对词向量进行特征抽取,并将抽取后的特征标记在词向量上,训练后得到带有标签的词向量。从而实现对未标注语料的快速和准确地识别,识别效率相较于现有技术中的CRF算法有所提升。 |
