Web数据采集方法和Web数据采集系统
基本信息
申请号 | CN201711174715.9 | 申请日 | - |
公开(公告)号 | CN108011931A | 公开(公告)日 | 2021-06-11 |
申请公布号 | CN108011931A | 申请公布日 | 2021-06-11 |
分类号 | H04L29/08;G06F17/30 | 分类 | 电通信技术; |
发明人 | 韦立鹏 | 申请(专利权)人 | 用友金融信息技术股份有限公司 |
代理机构 | 北京友联知识产权代理事务所(普通合伙) | 代理人 | 尚志峰;汪海屏 |
地址 | 100094 北京市海淀区北清路68号院8号楼101房间 | ||
法律状态 | - |
摘要
摘要 | 本发明提出了一种Web数据采集方法、Web数据采集系统、计算机设备、计算机可读存储介质。其中,Web数据采集方法包括:布置待加入虚拟机的爬虫环境;获取待加入虚拟机的IP地址,并将IP地址添加至主节点配置中;控制主机更新运行脚本,以使待加入虚拟机和已加入虚拟机获取最新运行代码;当接收到待加入虚拟机的任务启动指令,根据最新运行代码执行任务启动指令,以使待加入虚拟机加入至爬取网站的集群中并开始Web数据采集。本发明实现了数据源大量增加时,Web数据爬取上和存储上的横向扩展,提高了爬取数据和存储数据的效率,在有限的时间内完成数据的采集。 |
