一种垃圾文本识别方法

基本信息

申请号 CN202010040291.2 申请日 -
公开(公告)号 CN111209744A 公开(公告)日 2020-05-29
申请公布号 CN111209744A 申请公布日 2020-05-29
分类号 G06F40/279;G06F40/242 分类 计算;推算;计数;
发明人 刘星辰;陈晓峰;麻沁甜 申请(专利权)人 上海勃池信息技术有限公司
代理机构 上海领洋专利代理事务所(普通合伙) 代理人 上海勃池信息技术有限公司
地址 200000 上海市嘉定区汇源路55号8幢5层517室
法律状态 -

摘要

摘要 本发明公开了一种垃圾文本识别方法,包括以下步骤:将待识别文本进行分词预处理,得到特征词文本;对待识别文本的每个特征词,计算该特征词的特征贡献比,垃圾文本识别系统对特征词进行识别,得到待识别文本的特征贡献比;通过待识别文本的特征贡献比和预设标准可以确定出该文本是否为垃圾文本,并可进一步对判定的垃圾文本采取一定的预防措施,从而能够避免垃圾文本对人们日常生活带来不利影响。