Web数据采集方法和Web数据采集系统

基本信息

申请号 CN201711174715.9 申请日 -
公开(公告)号 CN108011931A 公开(公告)日 2021-06-11
申请公布号 CN108011931A 申请公布日 2021-06-11
分类号 H04L29/08;G06F17/30 分类 电通信技术;
发明人 韦立鹏 申请(专利权)人 用友金融信息技术股份有限公司
代理机构 北京友联知识产权代理事务所(普通合伙) 代理人 尚志峰;汪海屏
地址 100094 北京市海淀区北清路68号院8号楼101房间
法律状态 -

摘要

摘要 本发明提出了一种Web数据采集方法、Web数据采集系统、计算机设备、计算机可读存储介质。其中,Web数据采集方法包括:布置待加入虚拟机的爬虫环境;获取待加入虚拟机的IP地址,并将IP地址添加至主节点配置中;控制主机更新运行脚本,以使待加入虚拟机和已加入虚拟机获取最新运行代码;当接收到待加入虚拟机的任务启动指令,根据最新运行代码执行任务启动指令,以使待加入虚拟机加入至爬取网站的集群中并开始Web数据采集。本发明实现了数据源大量增加时,Web数据爬取上和存储上的横向扩展,提高了爬取数据和存储数据的效率,在有限的时间内完成数据的采集。