一种MapReduce并行化大数据文本分类方法
基本信息
申请号 | CN201510297189.X | 申请日 | - |
公开(公告)号 | CN104866606A | 公开(公告)日 | 2015-08-26 |
申请公布号 | CN104866606A | 申请公布日 | 2015-08-26 |
分类号 | G06F17/30(2006.01)I | 分类 | 计算;推算;计数; |
发明人 | 朱信忠;徐慧英;赵建民;陈远超 | 申请(专利权)人 | 浙江师大计海新技术有限公司 |
代理机构 | 杭州金道专利代理有限公司 | 代理人 | 赵芳 |
地址 | 321000 浙江省金华市婺城区丹光西路239号5幢2单元602室 | ||
法律状态 | - |
摘要
摘要 | 一种MapReduce并行化大数据文本分类方法,包括如下步骤:第一步:建立用于文本分类的基准测试数据集,进行数据预处理,包括分词、去停用词、词根还原;将该基准测试数据集随机划分为训练文本和测试文本,将所述基准测试数据集采用向量空间模型建立文本表示模型;第二步:根据上述文本表示模型采用CDMT对所述基准测试数据集进行特征选择;第三步:采用贝叶斯分类器对所述基准测试数据集进行训练学习,得到分类结果。本发明提供一种分类性能良好、区分度较高的MapReduce并行化大数据文本分类方法。 |
