一种基于深度学习及遗忘算法的中文分词方法

基本信息

申请号 CN201811258651.5 申请日 -
公开(公告)号 CN109388806A 公开(公告)日 2019-02-26
申请公布号 CN109388806A 申请公布日 2019-02-26
分类号 G06F17/27 分类 计算;推算;计数;
发明人 卢学裕;王安;杨大海;杨利军 申请(专利权)人 北京布本智能科技有限公司
代理机构 北京东方芊悦知识产权代理事务所(普通合伙) 代理人 北京布本智能科技有限公司
地址 100102 北京市朝阳区望京利泽中园二区203号九层1908
法律状态 -

摘要

摘要 本发明公开了一种基于深度学习及遗忘算法的中文分词方法,包括以下步骤:一:逐字扫描句子获取自然语言,采用深度学习分词方法对扫描的自然语言划分成词语序列收入至第一词库;二:逐字扫描句子获取自然语言,采用遗忘算法分词方法对获取的自然语言进行断字划分成候选词收入至第二词库,三:将第一词库中的词语序列与第二词库中的候选词融合获取最终分词结果,融合方法为:第二词库中的连续单字,若对应深度学习中为词,则合并为词;第二词库中的单个单字,若对应深度学习中为词,则向前或向后合并为词。本发明的分词方法,通过将深度学习分词方法和遗忘算法分词方法的融合,可以自动侦测领域知识,完成无监督领域新词发现功能,提高分词效果。