一种完整采集网页信息的方法和系统
基本信息
申请号 | CN201310102584.9 | 申请日 | - |
公开(公告)号 | CN103186670B | 公开(公告)日 | 2016-04-13 |
申请公布号 | CN103186670B | 申请公布日 | 2016-04-13 |
分类号 | G06F17/30(2006.01)I | 分类 | 计算;推算;计数; |
发明人 | 全小飞;柳香 | 申请(专利权)人 | 北京中金云网科技有限公司 |
代理机构 | 北京三聚阳光知识产权代理有限公司 | 代理人 | 寇海侠 |
地址 | 100176 北京市大兴区北京经济技术开发区博兴八路1号 | ||
法律状态 | - |
摘要
摘要 | 本发明涉及一种完整采集网页信息的方法和系统,包括如下步骤:①在安装有FireBug以及Cookies?Manager的浏览器中模拟用户浏览浏览器的行为并保存Cookies信息、所有URL请求及服务器返回的第一响应结果;②后台运行的浏览器模拟用户浏览浏览器的行为并保存第二响应结果;③将第一响应结果中存在的第二响应结果没有的网页信息补充到第二响应结果中;④后台运行的浏览器根据补充后的第二响应结果进行网页信息的采集,并保存。本发明所述的完整采集网页信息的方法和系统,后台运行的浏览器根据补充后的第二响应结果可完成所有网页信息的采集,且不占用浏览器的资源,从而解决了现有技术中动态网页采集方法无法获取AJAX动态生成的链接页面的问题。 |
