一种能识别网页信息自动采集的系统与方法专利查询专利号|摘要-满商公司网

一种能识别网页信息自动采集的系统与方法

基本信息

摘要

摘要	本发明公开了一种能识别网页信息自动采集的系统与方法，包括反采集分类器构建模块、自动采集识别模块和反采集在线处理模块，反采集分类器构建模块主要用于使用计算机程序对历史的web信息自动采集和正常的网页访问行为进行学习并区分，自动采集识别模块，通过运用上述步骤中的反采集分类器，自动识别出搜索引擎程序的自动采集行为，并将识别出的采集程序所处的IP段加入黑名单。反采集在线处理模块主要用于对访问的用户进行自动在线判定和处理。本发明克服了现有技术的不足，该系统通过分析网站的历史网页访问行为，建立自动采集分类器，识别出机器人的自动采集，通过自动机器人采集识别，实现网页反抓取。