基于教育网络信息主题采集方法

基本信息

申请号 CN201811571567.9 申请日 -
公开(公告)号 CN109670099A 公开(公告)日 2019-04-23
申请公布号 CN109670099A 申请公布日 2019-04-23
分类号 G06F16/951(2019.01)I; G06F16/955(2019.01)I 分类 计算;推算;计数;
发明人 陈炽昌; 杨帆 申请(专利权)人 全通教育集团(广东)股份有限公司
代理机构 成都玖和知识产权代理事务所(普通合伙) 代理人 全通教育集团(广东)股份有限公司
地址 528403 广东省中山市东区中山四路88号尚峰金融商务中心5座18层之一
法律状态 -

摘要

摘要 本发明公开了一种能够使采集到大量URL地址以及网页文本信息均与主题相关性较高,同时提高采集教育网络信息主题准确性的基于教育网络信息主题的采集方法。该基于教育网络信息主题的采集方法包括步骤采集网络页面,对页面进行分析下载,对页面信息进行提取,去除无关页面和无关URL,然后对页面和URL进行去重,将去重后网页保存到教育信息库,并且提取去重后的页面的URL,将该URL放入到采集到的URL序列中,然后供给个采集器,对网页进行重新采集。采用该基于教育网络信息主题的采集方法能够提高采集效率,提高教育网络信息主题采集有效性。