一种基于相似度匹配的文本分类方法

基本信息

申请号 CN201810704164.0 申请日 -
公开(公告)号 CN109033212A 公开(公告)日 2018-12-18
申请公布号 CN109033212A 申请公布日 2018-12-18
分类号 G06F17/30;G06F17/22 分类 计算;推算;计数;
发明人 向湘杰 申请(专利权)人 上海新诤信知识产权服务股份有限公司
代理机构 - 代理人 -
地址 523073 广东省东莞市南城区西平下手新村三巷35号403室
法律状态 -

摘要

摘要 本发明提供了一种基于相似度匹配的文本分类方法,通过服务器接收用户上传的待分类的第一文本,对所述第一文本进行词频统计,将词频统计结果输入分类模型,通过分类模型识别出其所属的第一级文本类别;根据所述第一级文本类别,获取服务器中所述第一级文本类别下所对应的多个第二文本;服务器依次计算第一文本与各个第二文本之间的相似度;判断计算出的相似度最大值是否超出预设阈值;若超出,则将第一文本归类到相似度最大值所对应的第二文本所属的第二级文本类别;否则,将第一文本归类到未识别文本集中。本发明公开的文本分类方法,在现有技术的基础上,增加了相似文本匹配的步骤,提高了文本分类的效率和准确性。