一种基于高频字图模型的Deep Web数据爬取方法

基本信息

申请号 CN201110246903.4 申请日 -
公开(公告)号 CN102289502A 公开(公告)日 2011-12-21
申请公布号 CN102289502A 申请公布日 2011-12-21
分类号 G06F17/30(2006.01)I 分类 计算;推算;计数;
发明人 禹晓辉;闫中敏;彭朝晖 申请(专利权)人 山东英佰德信息科技有限公司
代理机构 济南圣达知识产权代理有限公司 代理人 张勇
地址 250101 山东省济南市高新区颖秀路山大科技园内
法律状态 -

摘要

摘要 本发明公开了一种基于高频字图模型的DeepWeb数据爬取方法,其特征是,该方法的实现步骤如下:步骤1:统计获得属性高频字列表和属性高频字覆盖率图;步骤2:将属性高频字列表中的第一个汉字用作查询关键字;步骤3:查询接口向Web数据库提交查询请求;步骤4:Web数据库响应查询请求,将查询结果集合组织为DeepWeb动态页面;步骤5:获取相应的DeepWeb页面,得到结构化数据记录,将这些记录放入本地数据库;步骤6:如果查询覆盖率达到δ则转步骤7;步骤7:选择新数据获取率最高的一个汉字wi用作查询关键字,继续执行步骤3-5获取wi提交之后返回的查询结果,再转步骤7选择下一个查询关键字,直至数据爬取结束。