一种抓取网络平面媒体的网页内容的方法及系统

基本信息

申请号 CN201310344367.0 申请日 -
公开(公告)号 CN103399933B 公开(公告)日 2017-01-18
申请公布号 CN103399933B 申请公布日 2017-01-18
分类号 G06F17/30(2006.01)I 分类 计算;推算;计数;
发明人 张思亮;崔世起;崔庆君 申请(专利权)人 人民搜索网络股份公司
代理机构 北京集佳知识产权代理有限公司 代理人 王宝筠
地址 100026 北京市朝阳区金台西路2号[4-1]15幢3层370室
法律状态 -

摘要

摘要 本发明公开一种抓取网络平面媒体的网页内容的方法及系统。所述方法包括:获取网络平面媒体的可用URL信息;所述URL信息包含时间信息;根据所述可用URL信息生成所述网络平面媒体的URL模板;确定需要抓取的所述网络平面媒体的更新时间信息;根据所述URL模板以及所述更新时间信息构造所述网络平面媒体的第一URL;抓取所述第一URL对应的网页内容。采用本发明的方法或系统,可以抓取到更加全面的数据,并且提高抓取效率。