一种面向文本大数据的中文分词方法专利查询专利号|摘要-满商公司网

一种面向文本大数据的中文分词方法

基本信息

申请号	CN201410711771.1	申请日	-
公开（公告）号	CN104408034B	公开（公告）日	2017-03-22
申请公布号	CN104408034B	申请公布日	2017-03-22
分类号	G06F17/27(2006.01)I	分类	计算；推算；计数;
发明人	徐涛;邹复好;周可;唐小蔓;郑胜;张胜;陈进才;李春花	申请（专利权）人	武汉数为科技有限公司
代理机构	武汉东喻专利代理事务所（普通合伙）	代理人	宋业斌
地址	430074 湖北省武汉市东湖高新技术开发区高新大道999号
法律状态	-

摘要

本发明公开了一种面向文本大数据的中文分词方法，属于自然语言处理领域。其特征在于所述方法包括以下步骤：(1)对本地海量数据文件进行分解处理，形成数据块；(2)对分解后的数据块文件进行Map化处理，得到以偏移量为Key，文本内容为Value的<Key,Value>键值对；(3)通过一系列的分词处理，获得最终的分词结果，并且得到以偏移量为Key，分词结果为Value的<Key,Value>键值对，作为Map函数的输出；(4)对Map函数得到的<Key,Value>键值对进行Reduce处理，Reduce函数得到原始文件与分词结果文件对应<Key,Value>键值对的索引文件，并将最终结果汇总写入到HDFS。该方法在文本大数据情况下，保证了分词准确率的同时，并且极大的提高了系统的吞吐率以及中文分词的效率，具有极高的实用价值。