一种抓取网页内容的方法及装置
基本信息
申请号 | CN201410843691.1 | 申请日 | - |
公开(公告)号 | CN104866517A | 公开(公告)日 | 2015-08-26 |
申请公布号 | CN104866517A | 申请公布日 | 2015-08-26 |
分类号 | G06F17/30(2006.01)I;G06F17/27(2006.01)I | 分类 | 计算;推算;计数; |
发明人 | 狄东杰;孙德山;姚臻 | 申请(专利权)人 | 智慧城市信息技术有限公司 |
代理机构 | 北京同达信恒知识产权代理有限公司 | 代理人 | 黄志华 |
地址 | 201209 上海市浦东新区金海路3288号4幢二楼 | ||
法律状态 | - |
摘要
摘要 | 本发明公开了一种抓取网页内容的方法及装置,用于解决目前在对不同类型网页内容进行抓取的过程中,存在网页内容抓取复杂度高,以及网页内容抓取效率低的问题。本发明实施例中,当检测到待抓取网页时,即从预设的抓取规则库中查找上述待抓取网页的URL,当该抓取规则库中不存在URL对应的抓取规则时,对待抓取网页中的内容进行分析,并对满足条件的待抓取网页生成抓取规则。采用本发明技术方案,对待抓取网页中的内容进行分析,根据分析结果自动生成待抓取网页对应的抓取规则,无须人工设置抓取规则,有效降低了网页内容抓取的复杂度,提高了网页内容抓取的效率。 |
