基于模板标注的分布式爬虫方法、装置、计算机装置及计算机可读存储介质
基本信息
申请号 | CN202110813832.5 | 申请日 | - |
公开(公告)号 | CN113434748A | 公开(公告)日 | 2021-09-24 |
申请公布号 | CN113434748A | 申请公布日 | 2021-09-24 |
分类号 | G06F16/951(2019.01)I;G06F16/953(2019.01)I;G06F16/955(2019.01)I;G06F16/958(2019.01)I;G06F40/186(2020.01)I | 分类 | 计算;推算;计数; |
发明人 | 何子洋;黄九鸣;林鹏;曾琰 | 申请(专利权)人 | 湖南四方天箭信息科技有限公司 |
代理机构 | 湖南兆弘专利事务所(普通合伙) | 代理人 | 胡君 |
地址 | 410000湖南省长沙市高新开发区岳麓西大道588号芯城科技园8栋1301房 | ||
法律状态 | - |
摘要
摘要 | 本发明公开一种基于模板标注的分布式爬虫方法、装置、计算机装置及计算机可读存储介质,该方法包括:标注目标网页所需抽取的信息项,分别为每个信息项获取两个以上的抽取信息样例;分别根据获取的取信息样例为标注的每个信息项生成对应的信息抽取通式;根据各信息项对应的信息抽取通式以及所需的网页信息生成信息抽取模板;当接收到爬虫任务时,读取信息抽取模板进行信息抽取。本发明能够实现分布式的网页信息抽取,具有实现操作方法简单、爬虫效率以及精度高、通用性及稳定性好等优点。 |
