一种抓取网络平面媒体的网页内容的方法及系统
基本信息
申请号 | CN201310344367.0 | 申请日 | - |
公开(公告)号 | CN103399933B | 公开(公告)日 | 2017-01-18 |
申请公布号 | CN103399933B | 申请公布日 | 2017-01-18 |
分类号 | G06F17/30(2006.01)I | 分类 | 计算;推算;计数; |
发明人 | 张思亮;崔世起;崔庆君 | 申请(专利权)人 | 人民搜索网络股份公司 |
代理机构 | 北京集佳知识产权代理有限公司 | 代理人 | 王宝筠 |
地址 | 100026 北京市朝阳区金台西路2号[4-1]15幢3层370室 | ||
法律状态 | - |
摘要
摘要 | 本发明公开一种抓取网络平面媒体的网页内容的方法及系统。所述方法包括:获取网络平面媒体的可用URL信息;所述URL信息包含时间信息;根据所述可用URL信息生成所述网络平面媒体的URL模板;确定需要抓取的所述网络平面媒体的更新时间信息;根据所述URL模板以及所述更新时间信息构造所述网络平面媒体的第一URL;抓取所述第一URL对应的网页内容。采用本发明的方法或系统,可以抓取到更加全面的数据,并且提高抓取效率。 |
