一种基于高频字图模型的Deep Web数据爬取方法专利查询专利号|摘要-满商公司网

一种基于高频字图模型的Deep Web数据爬取方法

基本信息

申请号	CN201110246903.4	申请日	-
公开（公告）号	CN102289502A	公开（公告）日	2011-12-21
申请公布号	CN102289502A	申请公布日	2011-12-21
分类号	G06F17/30(2006.01)I	分类	计算；推算；计数;
发明人	禹晓辉;闫中敏;彭朝晖	申请（专利权）人	山东英佰德信息科技有限公司
代理机构	济南圣达知识产权代理有限公司	代理人	张勇
地址	250101 山东省济南市高新区颖秀路山大科技园内
法律状态	-

摘要

本发明公开了一种基于高频字图模型的DeepWeb数据爬取方法，其特征是，该方法的实现步骤如下：步骤1：统计获得属性高频字列表和属性高频字覆盖率图；步骤2：将属性高频字列表中的第一个汉字用作查询关键字；步骤3：查询接口向Web数据库提交查询请求；步骤4：Web数据库响应查询请求，将查询结果集合组织为DeepWeb动态页面；步骤5：获取相应的DeepWeb页面，得到结构化数据记录，将这些记录放入本地数据库；步骤6：如果查询覆盖率达到δ则转步骤7；步骤7：选择新数据获取率最高的一个汉字wi用作查询关键字，继续执行步骤3-5获取wi提交之后返回的查询结果，再转步骤7选择下一个查询关键字，直至数据爬取结束。