信息采集系统

基本信息

申请号 CN201810283352.0 申请日 -
公开(公告)号 CN108549678B 公开(公告)日 2018-09-18
申请公布号 CN108549678B 申请公布日 2018-09-18
分类号 G06F16/953(2019.01)I;G06F16/955(2019.01)I 分类 -
发明人 上官育松;付小东;孙涛;张金红 申请(专利权)人 北京今朝在线科技有限公司
代理机构 北京华仲龙腾专利代理事务所(普通合伙) 代理人 北京今朝在线科技有限公司
地址 102400北京市房山区良乡长虹西路翠柳东街1号-1081
法律状态 -

摘要

摘要 本发明提供了一种信息采集系统,包括采集任务添加模块和采集爬虫模块;采集任务添加模块和采集爬虫模块均与数据库进行数据交互;采集任务添加模块包括任务管理子模块;任务管理子模块,用于添加多项采集任务信息,并将添加的多项采集任务信息上传至数据库;采集爬虫模块包括列表采集子模块;列表采集子模块,用于实时检索数据库,由数据库中获取每项采集任务信息,并采用分布式爬虫技术根据每项采集任务信息采集相应的目的信息,并将采集到的目的信息上传至数据库中进行存储。其实现了多项采集任务的并行执行,其相对于传统的爬虫信息采集单线程执行有效提高了信息采集效率。