一种用于中文分词的方法与装置

基本信息

申请号 CN201911310472.6 申请日 -
公开(公告)号 CN111651985A 公开(公告)日 2020-09-11
申请公布号 CN111651985A 申请公布日 2020-09-11
分类号 G06F40/289(2020.01)I 分类 计算;推算;计数;
发明人 田元贺;宋彦 申请(专利权)人 创新工场(广州)人工智能研究有限公司
代理机构 北京启坤知识产权代理有限公司 代理人 赵晶
地址 510700广东省广州市黄埔区光谱中路23号A2栋1001房
法律状态 -

摘要

摘要 本发明的目的是提供一种中文分词方法与装置。针对输入文本,通过查询词表,构建其中每个字的键‑值记忆对;将所构建的每个键‑值记忆对映射为一个键向量和一个值向量;确定所述输入文本中每个字经上下文信息编码获得的字向量与该字的所有值向量的加权和之和;根据所述输入文本中每个字对应的所述和进行分词预测,以获得相应的分词结果,所述分词结果指示所述输入文本中的分词标签。本发明在上下文信息编码层和解码输出层之间进行了创新,加入键‑值记忆层以将词边界信息融入现有的基于深度学习的分词模型的框架中。因此,本发明能够在基于深度学习的分词模型中有效利用词边界信息,进而提升分词模型的性能,以及提高中文分词的准确率。