分词器获得方法、装置及电子设备

基本信息

申请号 CN202011219865.9 申请日 -
公开(公告)号 CN112101016A 公开(公告)日 2020-12-18
申请公布号 CN112101016A 申请公布日 2020-12-18
分类号 G06F40/284;G06F40/242 分类 计算;推算;计数;
发明人 黄诗雅;罗睦军;朱栩 申请(专利权)人 广州云趣信息科技有限公司
代理机构 北京博雅睿泉专利代理事务所(特殊普通合伙) 代理人 广州云趣信息科技有限公司
地址 510665 广东省广州市天河区建工路4号6楼
法律状态 -

摘要

摘要 本申请公开了一种分词器获得方法,包括:获取原始文本语料,其中,所述原始文本语料包括第一词汇和至少一个第二词汇,其中,所述第二词汇用于解释所述第一词汇,所述第一词汇属于目标语种,所述第二词汇属于释义语种;根据所述至少一个第二词汇,获得所述第一词汇的目标词性;根据所述第一词汇和所述目标词性,获得与所述目标语种对应的目标文本语料;根据所述目标文本语料,获得目标分词器,其中,所述目标分词器用于对使用所述目标语种的文本进行分词处理。该方法可以提升目标分词器进行分词处理时的可靠性以及准确性。