爬虫调度方法、装置、终端设备和可读存储介质
基本信息
申请号 | CN202010955778.3 | 申请日 | - |
公开(公告)号 | CN112100472A | 公开(公告)日 | 2020-12-18 |
申请公布号 | CN112100472A | 申请公布日 | 2020-12-18 |
分类号 | G06F16/951;G06F16/9537 | 分类 | 计算;推算;计数; |
发明人 | 夏凯军;鄢宇 | 申请(专利权)人 | 深圳市科盾科技有限公司 |
代理机构 | 北京超凡宏宇专利代理事务所(特殊普通合伙) | 代理人 | 深圳市科盾科技有限公司 |
地址 | 518000 广东省深圳市福田区益田路1006号益田花园二期20栋13楼1301室 | ||
法律状态 | - |
摘要
摘要 | 本发明实施例公开了爬虫调度方法、装置、终端设备和可读存储介质,该方法包括在调度爬虫爬取目标网页的数据时,将当前实际时间映射至预设的更新距离映射时间轴上以确定对应的当前映射时间;根据目标网页的更新情况确定爬虫下次调度的映射时间间隔;根据当前映射时间和映射时间间隔确定爬虫下次调度的下次调度映射时间;将下次调度映射时间映射至实际时间轴上以确定对应的下次调度实际时间;根据下次调度实际时间调度爬虫。本实施例的技术方案通过更新距离映射时间轴与实际时间轴之间的映射关系,将爬虫的调度时间与网页更新速度之间的关系进行量化,有效避免爬虫资源过度浪费,保证对网页更新的数据进行及时的爬取。 |
