基于教育信息主题的并行化数据跟踪方法

基本信息

申请号 CN201811571552.2 申请日 -
公开(公告)号 CN109635182A 公开(公告)日 2019-04-16
申请公布号 CN109635182A 申请公布日 2019-04-16
分类号 G06F16/951(2019.01)I; G06F16/955(2019.01)I; G06F9/50(2006.01)I 分类 计算;推算;计数;
发明人 陈炽昌; 杨帆 申请(专利权)人 全通教育集团(广东)股份有限公司
代理机构 成都玖和知识产权代理事务所(普通合伙) 代理人 全通教育集团(广东)股份有限公司
地址 528403 广东省中山市东区中山四路88号尚峰金融商务中心5座18层之一
法律状态 -

摘要

摘要 本发明公开了一种能够同时对多个教育信息主题进行采集,提高采集效率,同时可以对采集到的网页信息更新实现跟踪的基于教育信息主题的并行化数据跟踪方法。该基于教育信息主题的并行化数据跟踪方法包括步骤:在Web网页与Spider采集数据库之间构建多个并行采集线程;并行化采集网络页面,对页面进行分析下载,对网络页面信息进行提取,去除与所有教育主题无关页面和无关URL,然后对页面和URL进行去重,将去重后网页保存到教育信息库,并且提取去重后的页面的URL,将该URL放入到采集到的URL序列中,然后供给个采集器,对网页进行重新采集。采用该基于教育信息主题的并行化数据跟踪方法能够有效的提高采集效率,能够提高主题信息采集的准确性和有效性。