一种文本分类模型的确定方法

基本信息

申请号 CN201510924971.X 申请日 -
公开(公告)号 CN105574105B 公开(公告)日 2019-05-28
申请公布号 CN105574105B 申请公布日 2019-05-28
分类号 G06F16/35(2019.01)I 分类 计算;推算;计数;
发明人 刘鹏 申请(专利权)人 中国建设银行股份有限公司北京中关村分行
代理机构 北京品源专利代理有限公司 代理人 北京锐安科技有限公司
地址 100044 北京市海淀区西小口路66号中关村东升科技园北领地B-2号楼七层
法律状态 -

摘要

摘要 本发明公开了一种文本分类模型的确定方法,包括:获取包含多个文本的样本数据,并对所述样本数据进行预处理;对所述样本数据中各个词进行时间密度的分数计算,得到所述样本数据中各个词的时间密度的分数;所述时间密度的分数表征包含对应词的文本在时间维度上的分布与对应词在时间维度上的分布的综合信息;根据所述样本数据中各个词的时间密度的分数,提取所述样本数据中的特征词;根据预设的分类算法、提取的特征词及所述样本数据,确定用于判断待分类文本类别的分类模型。本发明解决样本数据在时间维度上分布不均匀时导致的文本分类性能下降的问题。