基于统计的中文分词方法、系统、装置和存储介质

基本信息

申请号 CN201911392455.1 申请日 -
公开(公告)号 CN111160024A 公开(公告)日 2020-05-15
申请公布号 CN111160024A 申请公布日 2020-05-15
分类号 G06F40/284 分类 计算;推算;计数;
发明人 寇永娴;陈惠芳;蓝飘;胡志乐;李娟 申请(专利权)人 广州广电运通信息科技有限公司
代理机构 广州嘉权专利商标事务所有限公司 代理人 广州广电运通金融电子股份有限公司;广州广电运通信息科技有限公司
地址 510663 广东省广州市广州高新技术产业开发区科学城科林路9号研究院办公楼
法律状态 -

摘要

摘要 本发明公开了一种基于统计的中文分词方法、系统、装置和存储介质,其中方法包括:获取目标文本;根据预置语料库对目标文本进行分词处理,识别出第一概率和第二概率;结合第一概率与第二概率对目标文本所含的词进行逆向匹配,输出若干个分词路径,各所述路径含若干个分词节点;结合维特比算法和预置比例因子对各所述分词路径上各分词节点的词进行逆向递归处理,获取最优分词序列;根据最优分词序列生成分词结果,从而提高中文分词处理的分词准确率,并通过预置比例因此降低计算量,降低成本。