术语识别方法及装置

基本信息

申请号 CN201710868929.X 申请日 -
公开(公告)号 CN107818080A 公开(公告)日 2018-03-20
申请公布号 CN107818080A 申请公布日 2018-03-20
分类号 G06F17/27;G06N3/04;G06N3/08 分类 计算;推算;计数;
发明人 田亮;孙凡;武琼 申请(专利权)人 新译信息科技(北京)有限公司
代理机构 北京同立钧成知识产权代理有限公司 代理人 闵南燕;刘芳
地址 100102 北京市朝阳区望京东园四区7号楼绿地中心B座2005/2006室
法律状态 -

摘要

摘要 本发明提供一种术语识别方法及装置,通过获取数据集,对数据集进行数据处理,得到分词词集;对分词词集进行训练,得到词向量集合;将词向量集合作为输入,输入到包含至少3层结构的预设模型中;其中,预设模型包括:窗口层、至少一层隐藏层、输出层;词向量集合从窗口层输入,经过隐藏层对词向量进行特征抽取,并将抽取后的特征标记在词向量上,训练后得到带有标签的词向量。从而实现对未标注语料的快速和准确地识别,识别效率相较于现有技术中的CRF算法有所提升。