高访问情况下的爬虫封禁方法

基本信息

申请号 CN201610259811.2 申请日 -
公开(公告)号 CN105827619B 公开(公告)日 2019-02-15
申请公布号 CN105827619B 申请公布日 2019-02-15
分类号 H04L29/06;H04L29/08;G06F21/56;G06F16/953 分类 电通信技术;
发明人 李兴涛;王儒敬;王伟 申请(专利权)人 无锡中科富创科技孵化有限公司
代理机构 无锡市大为专利商标事务所(普通合伙) 代理人 无锡中科富农物联科技有限公司;安徽中科物联科技有限公司;江苏物联网研究发展中心
地址 214135 江苏省无锡市新区菱湖大道200号江苏物联网研究与发展中心C座3楼
法律状态 -

摘要

摘要 本发明提供一种高访问情况下的爬虫封禁方法,用于在高访问量情况下快速的判断一个访问者是否在访问黑名单中并且实施封禁,并且有效地维护名单库的正确性。本发明涉及以下步骤:提取请求的ip或者id信息;名单库预先导入到内存中,在高访问量的情况下只有通过内存查找才能满足低响应时间的要求,通过在内存的名单库中查找判断id是否在黑名单中;对于是黑名单的拒绝访问;考虑到名单库会不断变动,而且在访问量太大的时候应用会部署到不同服务器中,对于怎样保证不同服务器中名单库的一致性,增加了服务模块定时进行名单一致性维护。本发明结合了共享内存使用名单库和增加服务附件模块的方法,减少了爬取判定的响应时间。