网络爬虫系统以及方法

基本信息

申请号 CN201610794314.2 申请日 -
公开(公告)号 CN106354843A 公开(公告)日 2017-01-25
申请公布号 CN106354843A 申请公布日 2017-01-25
分类号 G06F17/30(2006.01)I 分类 计算;推算;计数;
发明人 肖俊 申请(专利权)人 虎扑(上海)文化传播股份有限公司
代理机构 北京科亿知识产权代理事务所(普通合伙) 代理人 虎扑(上海)文化传播股份有限公司
地址 200080 上海市虹口区东大名路1191号17815室
法律状态 -

摘要

摘要 本发明提供了一种网络爬虫系统以及方法,其中的网络爬虫方法包括:通过预设的界面接收配置参数,所述配置参数包括:控制参数、过滤参数、抽取参数以及存储参数;获取所述控制参数中的种子链接,根据所述种子链接进行爬取;若访问的链接匹配所述过滤参数,则过滤所述访问的链接并转入下一链接;根据所述抽取参数中的抽取规则对所述访问的链接对应的页面内容进行提取,得到目标数据;获取所述存储参数中的存储格式以及存储位置,将所述目标数据按照所述存储格式进行格式转换,并将转换后的数据存储在所述存储位置。本发明根据配置参数进行相应的爬取操作,实现爬取数据的存储,能够适用于多种环境,满足多种需求,可适用性高。