一种基于术语频率和卡方统计的文本分类特征选择方法

基本信息

申请号 CN201410629761.3 申请日 -
公开(公告)号 CN104346459A 公开(公告)日 2015-02-11
申请公布号 CN104346459A 申请公布日 2015-02-11
分类号 G06F17/30(2006.01)I 分类 计算;推算;计数;
发明人 马廷淮;金传鑫;侯荣涛;田伟;薛羽 申请(专利权)人 学科网(北京)股份有限公司
代理机构 南京众联专利代理有限公司 代理人 顾进;叶涓涓
地址 100089 北京市海淀区北清路68号院2号楼二层02214室
法律状态 -

摘要

摘要 本发明提供一种基于术语频率和卡方统计的文本分类特征选择方法,包括如下步骤:对数据集预处理;把每一个数据对象转换为特征空间的向量;分别计算每个术语在每个文本分类中的最大术语频率和平均术语频率;根据平均术语频率计算术语在每个类中的分布差异度;将每个术语的最大术语频率和分布差异度与传统的卡方统计公式相结合,计算每个术语在每个类中的权重,并取最大值为术语权重;将每个术语权重降序排序,选出权重值最大的前N个术语作为特征。本发明通过对传统的卡方统计进行改进,使在某类出现频率较高的或类内分布均匀的特征项对类别区分的贡献度得到体现,并修正了传统卡方统计方法偏向于低频词的不足。