一种能识别网页信息自动采集的系统与方法
基本信息
申请号 | CN201310128305.6 | 申请日 | - |
公开(公告)号 | CN103218431A | 公开(公告)日 | 2013-07-24 |
申请公布号 | CN103218431A | 申请公布日 | 2013-07-24 |
分类号 | G06F17/30(2006.01)I | 分类 | 计算;推算;计数; |
发明人 | 张炜;金军;吴杨梓;江岩 | 申请(专利权)人 | 合肥智源慧生服务外包有限公司 |
代理机构 | - | 代理人 | - |
地址 | 230000 安徽省合肥市包河区金寨路96号本科08级1-9系 | ||
法律状态 | - |
摘要
摘要 | 本发明公开了一种能识别网页信息自动采集的系统与方法,包括反采集分类器构建模块、自动采集识别模块和反采集在线处理模块,反采集分类器构建模块主要用于使用计算机程序对历史的web信息自动采集和正常的网页访问行为进行学习并区分,自动采集识别模块,通过运用上述步骤中的反采集分类器,自动识别出搜索引擎程序的自动采集行为,并将识别出的采集程序所处的IP段加入黑名单。反采集在线处理模块主要用于对访问的用户进行自动在线判定和处理。本发明克服了现有技术的不足,该系统通过分析网站的历史网页访问行为,建立自动采集分类器,识别出机器人的自动采集,通过自动机器人采集识别,实现网页反抓取。 |