一种基于C++语言的混合型中文文本分词方法
基本信息
申请号 | CN202110077065.6 | 申请日 | - |
公开(公告)号 | CN113033193A | 公开(公告)日 | 2021-06-25 |
申请公布号 | CN113033193A | 申请公布日 | 2021-06-25 |
分类号 | G06F40/289;G06F40/284;G06F40/126;G06F40/216;G06F9/50 | 分类 | 计算;推算;计数; |
发明人 | 董仲舒;姚金龙;程杰;张阳光;何文欢;谷晶中 | 申请(专利权)人 | 山谷网安科技股份有限公司 |
代理机构 | 郑州大通专利商标代理有限公司 | 代理人 | 张立强 |
地址 | 450000 河南省郑州市金水区杨金路199号河南新科技市场8号楼 | ||
法律状态 | - |
摘要
摘要 | 本发明提供一种基于C++语言的混合型中文文本分词方法。该方法中,一个给定的文本数据的分词过程包括第一次分词过程和第二次分词过程;第一次分词过程的文本数据读取顺序和第二次分词过程的文本数据读取顺序相反;其中,第一次分词过程或第二次分词过程包括以下步骤:步骤1:加载词语词库和词频词库,并建立双数组tire树;步骤2:按照约定的文本数据读取顺序从给定的文本数据中读取一行数据,然后对当前行数据进行分词;步骤3:判断给定的文本数据是否已经读取完毕,若没有,则返回步骤2;若读取完毕,则执行步骤4;步骤4:判断给定的文本数据的分词过程是否结束,若结束,则比较两次分词过程的分词结果以确定给定的文本数据的最终分词结果。 |
