一种适用于批量爬取的数据采集方法及系统
基本信息
申请号 | CN201910404370.4 | 申请日 | - |
公开(公告)号 | CN110110182A | 公开(公告)日 | 2019-08-09 |
申请公布号 | CN110110182A | 申请公布日 | 2019-08-09 |
分类号 | G06F16/951;G06F16/953;G06F16/955 | 分类 | 计算;推算;计数; |
发明人 | 陈水平;伍千军;文德;李鸿翼;付自政;胡蓓蓓;艾准;丁尚果;涂家伟 | 申请(专利权)人 | 八戒科技服务有限公司 |
代理机构 | 北京酷爱智慧知识产权代理有限公司 | 代理人 | 八戒科技服务有限公司 |
地址 | 410000 湖南省长沙市岳麓区麓云路金悦雅苑楼盘二期商业14栋A区房产1203-45 | ||
法律状态 | - |
摘要
摘要 | 本发明公开了一种适用于批量爬取的数据采集方法及系统,所述方法包括:获取原始链接和子链接;获取所有链接对应的网页;解析所述网页,采集网站数据。通过上述方案,无需用户学习专业技术、配置规则,只需提供网站入口的种子网址,就可采集整个网站的内容,实现智能化采集数据,便于用户使用。 |
