一种网页数据采集方法、装置、系统及介质

基本信息

申请号 CN202110258442.6 申请日 -
公开(公告)号 CN112948659A 公开(公告)日 2021-06-11
申请公布号 CN112948659A 申请公布日 2021-06-11
分类号 G06F16/951;G06F16/9536 分类 计算;推算;计数;
发明人 叶世立 申请(专利权)人 深圳九星互动科技有限公司
代理机构 广东良马律师事务所 代理人 李良
地址 518000 广东省深圳市前海深港合作区南山街道兴海大道3046号香江金融大厦2809-2817
法律状态 -

摘要

摘要 本发明公开了一种网页数据采集方法、装置、系统及介质,方法包括:接收网页数据采集请求并生成相应的采集配置文件;根据所述采集配置文件生成若干个相应的网络爬虫并形成消息列队;通过派发的采集任务控制所述消息列队中的网络爬虫协同采集,获取目标网页数据;对所述目标网页数据进行分类过滤后存储至预设数据库。本发明实施例通过将生成的网络爬虫形成消息列队,在进行数据采集时通过派发采集任务控制所述消息列队中的网络爬虫协同采集,使得能根据实际服务器资源负载灵活调整网络爬虫的采集任务,有效均衡了网页数据采集时的服务器资源负载。