数据爬取方法及系统
基本信息
申请号 | CN201910395359.6 | 申请日 | - |
公开(公告)号 | CN110134853A | 公开(公告)日 | 2019-08-16 |
申请公布号 | CN110134853A | 申请公布日 | 2019-08-16 |
分类号 | G06F16/953 | 分类 | 计算;推算;计数; |
发明人 | 郭奇杰 | 申请(专利权)人 | 重庆八戒传媒有限公司 |
代理机构 | 北京酷爱智慧知识产权代理有限公司 | 代理人 | 邹成娇 |
地址 | 401121 重庆市渝北区北部新区青枫北路30号(拓展区A5栋凤凰C座第5层) | ||
法律状态 | - |
摘要
摘要 | 本申请提供一种数据爬取方法及系统,所述方法包括:获取待爬取网站的网页分级信息和相应的网页信息;基于网页分级信息,设定至少一级页面解析规则节点以生成爬虫树;基于所述爬虫树对所述待爬取网站进行数据爬取。本采用工作流的方式来获取网页数据,应用自定义规则的方式来解析网页,获取自己需要的信息,能够大大提高不同类型网页的数据采集效率,同时结合对外接口,方便用户二次开发使用,满足用户各类定制需求。同时通过多级页面解析规则节点的设置,可以细化提取数据,进一步提高数据抓取的效率和速度。 |
