一种推广信息的检测方法及装置
基本信息
申请号 | CN201710113764.5 | 申请日 | - |
公开(公告)号 | CN106909669B | 公开(公告)日 | 2020-02-11 |
申请公布号 | CN106909669B | 申请公布日 | 2020-02-11 |
分类号 | G06F16/9535;G06F16/335 | 分类 | 计算;推算;计数; |
发明人 | 张德斌 | 申请(专利权)人 | 北京时间有限公司 |
代理机构 | 北京市浩天知识产权代理事务所(普通合伙) | 代理人 | 宋菲;刘兰兰 |
地址 | 100089 北京市海淀区西三环北路3号一区1号楼7层710 | ||
法律状态 | - |
摘要
摘要 | 本发明公开了一种推广信息的检测方法及装置,其涉及文本过滤处理技术领域,该方法包括:获取预设的样本集合,提取样本集合中的各个样本所包含的信息单元;统计每个信息单元在样本集合中的出现次数,将出现次数大于预设的第一阈值的信息单元确定为候选特征单元;针对每个候选特征单元,分别统计该候选特征单元在各个文档位置的分布情况,根据统计结果确定该候选特征单元是否为推广特征单元;根据已确定的推广特征单元检测文档中包含的推广信息。由此可见,本发明能够有效且准确地过滤广告信息或垃圾推广信息的效果,使得采用机器抓取方法也能提取到纯净的新闻内容,极大地提高了汇编自媒体平台新闻的效率。 |
