一种基于动态IP的网页正文获取方法及装置
基本信息
申请号 | CN201810760579.X | 申请日 | - |
公开(公告)号 | CN108900623A | 公开(公告)日 | 2018-11-27 |
申请公布号 | CN108900623A | 申请公布日 | 2018-11-27 |
分类号 | H04L29/08;H04L29/12;G06F17/30 | 分类 | 电通信技术; |
发明人 | 董新建;董瑞朝;李贞 | 申请(专利权)人 | 邦尼集团有限公司 |
代理机构 | 北京超凡志成知识产权代理事务所(普通合伙) | 代理人 | 邦尼集团有限公司;董新建 |
地址 | 250000 山东省济南市高新区舜华路1号齐鲁软件园创业广场B座三层 | ||
法律状态 | - |
摘要
摘要 | 本发明提供一种基于动态IP的网页正文获取方法及装置。该方法包括对网络中的多个虚拟专用服务器vps对应的第一IP地址以及滑块代理服务器进行监控;若vps满足切换条件则指示vps重新动态生成一个第二IP地址,将vps对应的第一IP地址切换为第二IP地址;若滑块代理服务器满足不可用条件则将滑块代理服务器标记为不可用,以使爬虫服务器通过第二IP地址和可用的滑块代理服务器对进行正文获取。装置用于执行上述方法。本发明通过在动态生成第二IP地址后对第二IP地址的可用性进行校验,若可用则将第一IP地址切换为第二IP地址,从而避免了生成的第二IP地址不能用于待爬取网页进行正文爬取的情况,提高了爬取效率。 |
