一种语句分词方法和系统

基本信息

申请号 CN201710161440.9 申请日 -
公开(公告)号 CN107092590A 公开(公告)日 2017-08-25
申请公布号 CN107092590A 申请公布日 2017-08-25
分类号 G06F17/27;G06F17/30 分类 计算;推算;计数;
发明人 李嘉 申请(专利权)人 贵州恒昊软件科技有限公司
代理机构 北京轻创知识产权代理有限公司 代理人 杨立;付倩
地址 550007 贵州省贵阳市观山湖区六盘水路启林创客小镇B501
法律状态 -

摘要

摘要 本发明涉及一种语句分词方法和系统,其方法包括:由句尾向句头方向以逐字递增的方式对目标语句中的字符进行提取,每次提取得到一个目标字段;将目标字段与预存的标准字段进行匹配,并根据匹配结果来确定是否在目标字段中设置断点,如果未设置断点则将该目标字段进行保存,并提取下一目标字段进行匹配,如果设置了断点则对目标字段进行拆分,并将断点之前的字符以及未判断的目标语句合并作为新的目标语句重复执行分词处理,直至将整个目标语句全部分词完成,得到目标语句的分词结果。本发明从句尾向句头方向采用逆向匹配算法以逐字递增的方式对语句进行分词,可以以最大程度消除歧义,把语句划分的更准确,能够更好的实现信息的匹配及检索。