重要性加权的文本分类特征选择方法

基本信息

申请号 CN201611228203.1 申请日 -
公开(公告)号 CN106611057A 公开(公告)日 2017-05-03
申请公布号 CN106611057A 申请公布日 2017-05-03
分类号 G06F17/30(2006.01)I 分类 计算;推算;计数;
发明人 李保利 申请(专利权)人 上海利连信息科技有限公司
代理机构 上海容慧专利代理事务所(普通合伙) 代理人 上海利连信息科技有限公司
地址 200444 上海市宝山区上大路668号1幢1536室
法律状态 -

摘要

摘要 本发明公开了一种重要性加权的文本分类特征选择方法,包括:第一步骤:统计各候选特征在各类别中出现的数据信息,统计时特别考虑了候选特征对文本的语义代表程度,即重要性;第二步骤:使用在第一步骤得到的所述数据信息,利用相关性统计量计算公式,计算各个候选特征对各个类别的区分能力;第三步骤:汇总计算各个候选特征对所有类别的总体区分能力,并且依据各个候选特征对所有类别的总体区分能力对所有候选特征进行排序,并且输出经由排序得到的特征列表。