基于分布式网络爬虫的地理空间数据获取系统及方法

基本信息

申请号 CN202110640002.7 申请日 -
公开(公告)号 CN113254747B 公开(公告)日 2021-10-15
申请公布号 CN113254747B 申请公布日 2021-10-15
分类号 G06F16/951(2019.01)I;G06F16/9537(2019.01)I;G06F16/29(2019.01)I;G06F16/25(2019.01)I;G06F9/50(2006.01)I 分类 计算;推算;计数;
发明人 杜志强;呙维 申请(专利权)人 南京北斗创新应用科技研究院有限公司
代理机构 南京创略知识产权代理事务所(普通合伙) 代理人 闫方圆
地址 210000江苏省南京市六合区龙池街道虎跃东路8号
法律状态 -

摘要

摘要 本发明公开了一种基于分布式网络爬虫的地理空间数据获取系统及方法,系统包括用户需求发布模块、调度引擎服务模块、可执行爬虫程序集模块、HTCondor集群模块和分布式爬虫数据库模块,通过网络爬虫的方式进行互联网空间信息采集,抽取出目标数据及时存入数据库中,可以为对泛在地理空间数据进行进一步的管理使用提供了数据基础。清楚各种来源数据的特点和共同之处。通过归类总结不同类型数据、不同来源数据的获取方法,针对重要的泛在地理空间数据源设计定制化的数据获取应用,并将其融合到分布式爬虫框架中进行综合调度管理,可以实现良好的泛在数据获取效果。