代理服务器及互联网数据的采集方法
基本信息
申请号 | CN201711396097.2 | 申请日 | - |
公开(公告)号 | CN108108440A | 公开(公告)日 | 2018-06-01 |
申请公布号 | CN108108440A | 申请公布日 | 2018-06-01 |
分类号 | G06F17/30 | 分类 | 计算;推算;计数; |
发明人 | 龚权 | 申请(专利权)人 | 北京慧数科技有限公司 |
代理机构 | 北京兆君联合知识产权代理事务所(普通合伙) | 代理人 | 北京慧数科技有限公司 |
地址 | 100193 北京市海淀区东北旺西路中关村软件园2期华胜天成大厦2层 | ||
法律状态 | - |
摘要
摘要 | 本发明公开了一种代理服务器及互联网数据的采集方法,包括一种互联网数据的采集方法,包括接收客户端发送的向目标服务器的待采集站点采集数据的采集请求;解析所述采集请求并得到待采集站点的URL地址;模拟浏览器登录所述URL地址并执行Javascript脚本渲染以得到所述待采集站点的数据流;将所述数据流作为回复数据包发送给所述客户端。本发明能够模拟浏览器登录采用Javascript脚本渲染的网站并进行数据采集,然后由代理服务器将采集到的数据发送给采集软件,无需改变传统采集软件的源程序,即可对传统采集软件无法采集的网站内容进行采集,提高了数据采集效率,降低了人力物力。 |
