信息采集系统
基本信息
申请号 | CN201810283352.0 | 申请日 | - |
公开(公告)号 | CN108549678B | 公开(公告)日 | 2018-09-18 |
申请公布号 | CN108549678B | 申请公布日 | 2018-09-18 |
分类号 | G06F16/953(2019.01)I;G06F16/955(2019.01)I | 分类 | - |
发明人 | 上官育松;付小东;孙涛;张金红 | 申请(专利权)人 | 北京今朝在线科技有限公司 |
代理机构 | 北京华仲龙腾专利代理事务所(普通合伙) | 代理人 | 北京今朝在线科技有限公司 |
地址 | 102400北京市房山区良乡长虹西路翠柳东街1号-1081 | ||
法律状态 | - |
摘要
摘要 | 本发明提供了一种信息采集系统,包括采集任务添加模块和采集爬虫模块;采集任务添加模块和采集爬虫模块均与数据库进行数据交互;采集任务添加模块包括任务管理子模块;任务管理子模块,用于添加多项采集任务信息,并将添加的多项采集任务信息上传至数据库;采集爬虫模块包括列表采集子模块;列表采集子模块,用于实时检索数据库,由数据库中获取每项采集任务信息,并采用分布式爬虫技术根据每项采集任务信息采集相应的目的信息,并将采集到的目的信息上传至数据库中进行存储。其实现了多项采集任务的并行执行,其相对于传统的爬虫信息采集单线程执行有效提高了信息采集效率。 |
