文本主题的分类方法及系统

基本信息

申请号 CN201510341937.X 申请日 -
公开(公告)号 CN105045812B 公开(公告)日 2019-01-29
申请公布号 CN105045812B 申请公布日 2019-01-29
分类号 G06F16/35 分类 计算;推算;计数;
发明人 周诚;赵世亭;赵营营 申请(专利权)人 上海高欣计算机系统有限公司
代理机构 上海晨皓知识产权代理事务所(普通合伙) 代理人 上海高欣计算机系统有限公司
地址 201203 上海市浦东新区自由贸易试验区芳春路400号1幢301-103室
法律状态 -

摘要

摘要 本发明涉及文本主题分类技术领域,公开了一种文本主题的分类方法及系统。本发明中,文本主题的分类方法,包含以下步骤:采集语料;其中,语料包含各个主题类型的文本;对语料进行分词,并对分词后的语料进行文本特征提取,得到各主题类型文本的特征向量;根据动态对数激励函数调整各主题类型文本的特征向量中的特征值,得到新的各主题类型文本的特征向量;根据待分类文本与新的各主题类型文本的特征向量的相似度,对待分类文本进行分类,确定待分类文本的主题类型。这样,使得对文本分类更准确。