一种基于改进的TF-IDF的文章分类方法

基本信息

申请号 CN201811393043.5 申请日 -
公开(公告)号 CN109543037A 公开(公告)日 2019-03-29
申请公布号 CN109543037A 申请公布日 2019-03-29
分类号 G06F16/35(2019.01)I; G06K9/62(2006.01)I 分类 计算;推算;计数;
发明人 唐杰 申请(专利权)人 南京安讯科技有限责任公司
代理机构 大连至诚专利代理事务所(特殊普通合伙) 代理人 南京安讯科技有限责任公司
地址 210012 江苏省南京市雨花台区软件大道119号5幢201-206室
法律状态 -

摘要

摘要 本发明公开了一种基于改进的TF‑IDF的文章分类方法,具体包括步骤S1:采用中文分词系统对文本进行预处理,去除文本中的分词;S2:通过文本特征项对文本进行特征选择,使用改进的TF‑IDF权值计算方法计算特征项权值;S3:使用SVM分类器对训练集中的已知类别文本进行学习获得满足分类标准的SVM分类器;S4:采用满足分类标准的SVM分类器对集合文本进行分类。本方法在对文章分类过程中引入卡方统计量CHI和特征词在文本中的位置作为修正因子并结合传统TF‑IDF权值计算公式,很好的解决了特征词在类间分布以及关键词重要程度不足的问题,达到了迅速对文本分来的效果。