一种基于改进的TF-IDF的文章分类方法
基本信息
申请号 | CN201811393043.5 | 申请日 | - |
公开(公告)号 | CN109543037A | 公开(公告)日 | 2019-03-29 |
申请公布号 | CN109543037A | 申请公布日 | 2019-03-29 |
分类号 | G06F16/35(2019.01)I; G06K9/62(2006.01)I | 分类 | 计算;推算;计数; |
发明人 | 唐杰 | 申请(专利权)人 | 南京安讯科技有限责任公司 |
代理机构 | 大连至诚专利代理事务所(特殊普通合伙) | 代理人 | 南京安讯科技有限责任公司 |
地址 | 210012 江苏省南京市雨花台区软件大道119号5幢201-206室 | ||
法律状态 | - |
摘要
摘要 | 本发明公开了一种基于改进的TF‑IDF的文章分类方法,具体包括步骤S1:采用中文分词系统对文本进行预处理,去除文本中的分词;S2:通过文本特征项对文本进行特征选择,使用改进的TF‑IDF权值计算方法计算特征项权值;S3:使用SVM分类器对训练集中的已知类别文本进行学习获得满足分类标准的SVM分类器;S4:采用满足分类标准的SVM分类器对集合文本进行分类。本方法在对文章分类过程中引入卡方统计量CHI和特征词在文本中的位置作为修正因子并结合传统TF‑IDF权值计算公式,很好的解决了特征词在类间分布以及关键词重要程度不足的问题,达到了迅速对文本分来的效果。 |
