一种使用会话方式实现与网站交互表单自动提取的网络爬虫系统
基本信息
申请号 | CN201510675362.5 | 申请日 | - |
公开(公告)号 | CN106598991A | 公开(公告)日 | 2017-04-26 |
申请公布号 | CN106598991A | 申请公布日 | 2017-04-26 |
分类号 | G06F17/30(2006.01)I | 分类 | 计算;推算;计数; |
发明人 | 不公告发明人 | 申请(专利权)人 | 上海引跑信息科技有限公司 |
代理机构 | - | 代理人 | - |
地址 | 201203 上海市浦东新区蔡伦路1623号A栋2楼 | ||
法律状态 | - |
摘要
摘要 | 一种使用会话方式实现与网站交互表单自动提取的网络爬虫系统。互联网上有相当多的信息需要使用账户登录方式,通过特定的鼠标点击及键盘输入操作步骤,才能获取到。传统的网络爬虫开发技术是使用浏览器开发工具,监控人工操作时浏览器与服务器端交互的请求和应答,对截取的请求和应答内容人工分析,再开发代码实现。本发明提供一套经过验证可行的系统,将上述构造爬虫交互信息的工作接近于完全自动化的方式实现。这个系统由三个要素构成:一个HTML解析器,用于从HTML网页中解析出表单(〈FORM/〉)、链接(〈A/〉)等标签;一个脚本录制引擎,它通过代理的方式,为用户提供对目标网站的访问,记录浏览器与服务器端的数据交互;一个脚本运行模拟器,以解释方式运行上一步录制的脚本,播放脚本即可实现爬虫与网站的交互以及信息的抓取。 |
