页面数据抓取方法和系统
基本信息
申请号 | CN201410635960.5 | 申请日 | - |
公开(公告)号 | CN104317948A | 公开(公告)日 | 2015-01-28 |
申请公布号 | CN104317948A | 申请公布日 | 2015-01-28 |
分类号 | G06F17/30(2006.01)I | 分类 | 计算;推算;计数; |
发明人 | 刘旭辉;任继成;高照 | 申请(专利权)人 | 北京中科辅龙信息技术有限公司 |
代理机构 | 北京路浩知识产权代理有限公司 | 代理人 | 李相雨 |
地址 | 100085北京市海淀区上地信息路28号信息大厦A座9层1号房 | ||
法律状态 | - |
摘要
摘要 | 本发明涉及一种页面数据抓取方法和系统,该方法包括:S1.解析目标页面得到目标页面的配置信息,根据配置信息生成匹配模板;S2.从配置信息中获取目标页面的地址信息,根据地址信息确定目标页面,获取目标页面中的文本数据;S3.抓取单元根据匹配模板在目标页面中抓取文本数据,存储文本数据作为索引操作的根据。通过本发明的技术方案,使得抓取单元能够快速适用于各种网站的页面,并且能够准确抓取目标页面中特定的区域和/或数据。 |
