一种针对不同学科题目文本分类的方法

基本信息

申请号 CN201510545940.3 申请日 -
公开(公告)号 CN105183831A 公开(公告)日 2015-12-23
申请公布号 CN105183831A 申请公布日 2015-12-23
分类号 G06F17/30(2006.01)I 分类 计算;推算;计数;
发明人 罗登;周贤华;万享;张玉志 申请(专利权)人 深圳市点通数据有限公司
代理机构 深圳市科吉华烽知识产权事务所(普通合伙) 代理人 上海德唐数据科技有限公司;深圳市点通数据有限公司
地址 201600 上海市松江区漕河泾开发区松江高科技园莘砖公路518号11幢404-2室
法律状态 -

摘要

摘要 本发明适用于数据预处理技术领域,提供了一种针对不同学科题目文本分类的方法,所述方法包括以下步骤:A、使用卡方检验对每门学科进行选词组成该学科的特征词表;B、利用朴素贝叶斯模型将选好的特征词进行学科分类;C、利用支持向量机对朴素贝叶斯模型分类中给出的前两名概率最大的结构进行二次分类给出第一名结果。通过两次分类,使得分类平均正确率得到提高,本方法实现简单、操作简单、使用方便准确,对学科间的分类更加准确,有效的提高了邻近学科之间分类的正确率。