数据爬取方法及系统

基本信息

申请号 CN201910395359.6 申请日 -
公开(公告)号 CN110134853A 公开(公告)日 2019-08-16
申请公布号 CN110134853A 申请公布日 2019-08-16
分类号 G06F16/953 分类 计算;推算;计数;
发明人 郭奇杰 申请(专利权)人 重庆八戒传媒有限公司
代理机构 北京酷爱智慧知识产权代理有限公司 代理人 邹成娇
地址 401121 重庆市渝北区北部新区青枫北路30号(拓展区A5栋凤凰C座第5层)
法律状态 -

摘要

摘要 本申请提供一种数据爬取方法及系统,所述方法包括:获取待爬取网站的网页分级信息和相应的网页信息;基于网页分级信息,设定至少一级页面解析规则节点以生成爬虫树;基于所述爬虫树对所述待爬取网站进行数据爬取。本采用工作流的方式来获取网页数据,应用自定义规则的方式来解析网页,获取自己需要的信息,能够大大提高不同类型网页的数据采集效率,同时结合对外接口,方便用户二次开发使用,满足用户各类定制需求。同时通过多级页面解析规则节点的设置,可以细化提取数据,进一步提高数据抓取的效率和速度。