一种适用于批量爬取的数据采集方法及系统

基本信息

申请号 CN201910404370.4 申请日 -
公开(公告)号 CN110110182A 公开(公告)日 2019-08-09
申请公布号 CN110110182A 申请公布日 2019-08-09
分类号 G06F16/951;G06F16/953;G06F16/955 分类 计算;推算;计数;
发明人 陈水平;伍千军;文德;李鸿翼;付自政;胡蓓蓓;艾准;丁尚果;涂家伟 申请(专利权)人 八戒科技服务有限公司
代理机构 北京酷爱智慧知识产权代理有限公司 代理人 八戒科技服务有限公司
地址 410000 湖南省长沙市岳麓区麓云路金悦雅苑楼盘二期商业14栋A区房产1203-45
法律状态 -

摘要

摘要 本发明公开了一种适用于批量爬取的数据采集方法及系统,所述方法包括:获取原始链接和子链接;获取所有链接对应的网页;解析所述网页,采集网站数据。通过上述方案,无需用户学习专业技术、配置规则,只需提供网站入口的种子网址,就可采集整个网站的内容,实现智能化采集数据,便于用户使用。