一种中文分词方法及装置

基本信息

申请号 CN201910844568.4 申请日 -
公开(公告)号 CN110543637A 公开(公告)日 2019-12-06
申请公布号 CN110543637A 申请公布日 2019-12-06
分类号 G06F17/27(2006.01); G06F16/35(2019.01) 分类 计算;推算;计数;
发明人 薛娇; 胡鸣鹤; 李飞阳; 孙付伟; 李大任; 李大海 申请(专利权)人 知者信息技术服务成都有限公司
代理机构 北京超凡宏宇专利代理事务所(特殊普通合伙) 代理人 知者信息技术服务成都有限公司
地址 610000 四川省成都市天府新区成都天府大道南段888号
法律状态 -

摘要

摘要 本发明实施例提供一种中文分词的方法及装置,涉及自然语言处理技术领域,解决现有技术中的中文分词速度较慢以及分词结果较差,无法快速响应业务需求的问题。本方案为:根据字节长度确定待处理文本的类型,待处理文本的类型包括长文本和短文本;若待处理文本的类型为长文本,则基于神经网络的分词模型对待处理文本分词,得到长文本分词结果;若待处理文本的类型为短文本,则基于词典匹配的分词模型对待处理文本分词,得到短文本分词结果;以及修正长文本分词结果和短文本分词结果。