网页信息的获取方法、装置、计算机设备和存储介质

基本信息

申请号 CN202011376054.X 申请日 -
公开(公告)号 CN112347394A 公开(公告)日 2021-02-09
申请公布号 CN112347394A 申请公布日 2021-02-09
分类号 G06F16/955(2019.01)I;G06F16/951(2019.01)I 分类 计算;推算;计数;
发明人 曾文清;陈立彬;杨濠兴;朱光岳;虞孝伟 申请(专利权)人 广州至真信息科技有限公司
代理机构 广州华进联合专利商标代理有限公司 代理人 陈金普
地址 510665广东省广州市天河区建工路4号5楼
法律状态 -

摘要

摘要 本申请涉及一种网页信息的获取方法、装置、计算机设备和存储介质,所述方法包括:获取具有不同集合优先级的多个种子集合;其中,至少一个种子集合包含具有不同爬取优先级的多个URL种子;从所述多个种子集合中,获取集合优先级最高的目标种子集合;当所述目标种子集合中包括具有不同爬取优先级的多个URL种子时,从所述多个URL种子中,提取爬取优先级最高的待爬取URL种子,并根据所述待爬取URL种子抓取网页信息,实现了根据集合间和集合内的两层优先级对URL种子进行爬取,可以根据不同爬取需求设置种子优先级并进行种子爬取,同时,采用该方法,在爬虫资源有限的情况下,可以优先爬取具有高优先级的URL种子。