页面数据抓取方法和系统

基本信息

申请号 CN201410635960.5 申请日 -
公开(公告)号 CN104317948A 公开(公告)日 2015-01-28
申请公布号 CN104317948A 申请公布日 2015-01-28
分类号 G06F17/30(2006.01)I 分类 计算;推算;计数;
发明人 刘旭辉;任继成;高照 申请(专利权)人 北京中科辅龙信息技术有限公司
代理机构 北京路浩知识产权代理有限公司 代理人 李相雨
地址 100085北京市海淀区上地信息路28号信息大厦A座9层1号房
法律状态 -

摘要

摘要 本发明涉及一种页面数据抓取方法和系统,该方法包括:S1.解析目标页面得到目标页面的配置信息,根据配置信息生成匹配模板;S2.从配置信息中获取目标页面的地址信息,根据地址信息确定目标页面,获取目标页面中的文本数据;S3.抓取单元根据匹配模板在目标页面中抓取文本数据,存储文本数据作为索引操作的根据。通过本发明的技术方案,使得抓取单元能够快速适用于各种网站的页面,并且能够准确抓取目标页面中特定的区域和/或数据。