一种抓取网页内容的方法及装置

基本信息

申请号 CN201410843691.1 申请日 -
公开(公告)号 CN104866517A 公开(公告)日 2015-08-26
申请公布号 CN104866517A 申请公布日 2015-08-26
分类号 G06F17/30(2006.01)I;G06F17/27(2006.01)I 分类 计算;推算;计数;
发明人 狄东杰;孙德山;姚臻 申请(专利权)人 智慧城市信息技术有限公司
代理机构 北京同达信恒知识产权代理有限公司 代理人 黄志华
地址 201209 上海市浦东新区金海路3288号4幢二楼
法律状态 -

摘要

摘要 本发明公开了一种抓取网页内容的方法及装置,用于解决目前在对不同类型网页内容进行抓取的过程中,存在网页内容抓取复杂度高,以及网页内容抓取效率低的问题。本发明实施例中,当检测到待抓取网页时,即从预设的抓取规则库中查找上述待抓取网页的URL,当该抓取规则库中不存在URL对应的抓取规则时,对待抓取网页中的内容进行分析,并对满足条件的待抓取网页生成抓取规则。采用本发明技术方案,对待抓取网页中的内容进行分析,根据分析结果自动生成待抓取网页对应的抓取规则,无须人工设置抓取规则,有效降低了网页内容抓取的复杂度,提高了网页内容抓取的效率。