一种面向文本大数据的中文分词方法
基本信息
申请号 | CN201410711771.1 | 申请日 | - |
公开(公告)号 | CN104408034B | 公开(公告)日 | 2017-03-22 |
申请公布号 | CN104408034B | 申请公布日 | 2017-03-22 |
分类号 | G06F17/27(2006.01)I | 分类 | 计算;推算;计数; |
发明人 | 徐涛;邹复好;周可;唐小蔓;郑胜;张胜;陈进才;李春花 | 申请(专利权)人 | 武汉数为科技有限公司 |
代理机构 | 武汉东喻专利代理事务所(普通合伙) | 代理人 | 宋业斌 |
地址 | 430074 湖北省武汉市东湖高新技术开发区高新大道999号 | ||
法律状态 | - |
摘要
摘要 | 本发明公开了一种面向文本大数据的中文分词方法,属于自然语言处理领域。其特征在于所述方法包括以下步骤:(1)对本地海量数据文件进行分解处理,形成数据块;(2)对分解后的数据块文件进行Map化处理,得到以偏移量为Key,文本内容为Value的<Key,Value>键值对;(3)通过一系列的分词处理,获得最终的分词结果,并且得到以偏移量为Key,分词结果为Value的<Key,Value>键值对,作为Map函数的输出;(4)对Map函数得到的<Key,Value>键值对进行Reduce处理,Reduce函数得到原始文件与分词结果文件对应<Key,Value>键值对的索引文件,并将最终结果汇总写入到HDFS。该方法在文本大数据情况下,保证了分词准确率的同时,并且极大的提高了系统的吞吐率以及中文分词的效率,具有极高的实用价值。 |
