一种基于高频字图模型的Deep Web数据爬取方法
基本信息
申请号 | CN201110246903.4 | 申请日 | - |
公开(公告)号 | CN102289502A | 公开(公告)日 | 2011-12-21 |
申请公布号 | CN102289502A | 申请公布日 | 2011-12-21 |
分类号 | G06F17/30(2006.01)I | 分类 | 计算;推算;计数; |
发明人 | 禹晓辉;闫中敏;彭朝晖 | 申请(专利权)人 | 山东英佰德信息科技有限公司 |
代理机构 | 济南圣达知识产权代理有限公司 | 代理人 | 张勇 |
地址 | 250101 山东省济南市高新区颖秀路山大科技园内 | ||
法律状态 | - |
摘要
摘要 | 本发明公开了一种基于高频字图模型的DeepWeb数据爬取方法,其特征是,该方法的实现步骤如下:步骤1:统计获得属性高频字列表和属性高频字覆盖率图;步骤2:将属性高频字列表中的第一个汉字用作查询关键字;步骤3:查询接口向Web数据库提交查询请求;步骤4:Web数据库响应查询请求,将查询结果集合组织为DeepWeb动态页面;步骤5:获取相应的DeepWeb页面,得到结构化数据记录,将这些记录放入本地数据库;步骤6:如果查询覆盖率达到δ则转步骤7;步骤7:选择新数据获取率最高的一个汉字wi用作查询关键字,继续执行步骤3-5获取wi提交之后返回的查询结果,再转步骤7选择下一个查询关键字,直至数据爬取结束。 |
