一种通过中心向量相似度匹配的垃圾文本审核装置和方法

基本信息

申请号 CN202010469767.4 申请日 -
公开(公告)号 CN111651598A 公开(公告)日 2020-09-11
申请公布号 CN111651598A 申请公布日 2020-09-11
分类号 G06F16/35(2019.01)I 分类 计算;推算;计数;
发明人 陈晓峰;麻沁甜;刘星辰 申请(专利权)人 上海勃池信息技术有限公司
代理机构 上海骁象知识产权代理有限公司 代理人 上海勃池信息技术有限公司
地址 201815上海市嘉定区汇源路55号8幢5层517室
法律状态 -

摘要

摘要 一种通过中心向量相似度匹配的垃圾文本审核装置和方法,包括以下步骤:建立一组垃圾样本文本集和一组正常样本文本集;计算两个样本集的中心向量,将待识别文本进行文本分类预处理,具体步骤包括文本分词及去除停用词,经过文本分类预处理后得到特征词文本。已经经过样本文本训练得到的分类器对使用特征词文本表示的待测文本进行分类。依据预设标准可以确定出该文本是否为垃圾文本,并可进一步对判定的垃圾文本采取一定的预防措施,从而能够避免垃圾文本对人们日常生活带来不利影响。