一种中文分词方法及装置
基本信息
申请号 | CN201910844568.4 | 申请日 | - |
公开(公告)号 | CN110543637A | 公开(公告)日 | 2019-12-06 |
申请公布号 | CN110543637A | 申请公布日 | 2019-12-06 |
分类号 | G06F17/27(2006.01); G06F16/35(2019.01) | 分类 | 计算;推算;计数; |
发明人 | 薛娇; 胡鸣鹤; 李飞阳; 孙付伟; 李大任; 李大海 | 申请(专利权)人 | 知者信息技术服务成都有限公司 |
代理机构 | 北京超凡宏宇专利代理事务所(特殊普通合伙) | 代理人 | 知者信息技术服务成都有限公司 |
地址 | 610000 四川省成都市天府新区成都天府大道南段888号 | ||
法律状态 | - |
摘要
摘要 | 本发明实施例提供一种中文分词的方法及装置,涉及自然语言处理技术领域,解决现有技术中的中文分词速度较慢以及分词结果较差,无法快速响应业务需求的问题。本方案为:根据字节长度确定待处理文本的类型,待处理文本的类型包括长文本和短文本;若待处理文本的类型为长文本,则基于神经网络的分词模型对待处理文本分词,得到长文本分词结果;若待处理文本的类型为短文本,则基于词典匹配的分词模型对待处理文本分词,得到短文本分词结果;以及修正长文本分词结果和短文本分词结果。 |
