一种面向文本大数据的中文分词方法

基本信息

申请号 CN201410711771.1 申请日 -
公开(公告)号 CN104408034B 公开(公告)日 2017-03-22
申请公布号 CN104408034B 申请公布日 2017-03-22
分类号 G06F17/27(2006.01)I 分类 计算;推算;计数;
发明人 徐涛;邹复好;周可;唐小蔓;郑胜;张胜;陈进才;李春花 申请(专利权)人 武汉数为科技有限公司
代理机构 武汉东喻专利代理事务所(普通合伙) 代理人 宋业斌
地址 430074 湖北省武汉市东湖高新技术开发区高新大道999号
法律状态 -

摘要

摘要 本发明公开了一种面向文本大数据的中文分词方法,属于自然语言处理领域。其特征在于所述方法包括以下步骤:(1)对本地海量数据文件进行分解处理,形成数据块;(2)对分解后的数据块文件进行Map化处理,得到以偏移量为Key,文本内容为Value的<Key,Value>键值对;(3)通过一系列的分词处理,获得最终的分词结果,并且得到以偏移量为Key,分词结果为Value的<Key,Value>键值对,作为Map函数的输出;(4)对Map函数得到的<Key,Value>键值对进行Reduce处理,Reduce函数得到原始文件与分词结果文件对应<Key,Value>键值对的索引文件,并将最终结果汇总写入到HDFS。该方法在文本大数据情况下,保证了分词准确率的同时,并且极大的提高了系统的吞吐率以及中文分词的效率,具有极高的实用价值。