网页结构化数据提取方法与系统

基本信息

申请号 CN200810036268.5 申请日 -
公开(公告)号 CN101561802A 公开(公告)日 2009-10-21
申请公布号 CN101561802A 申请公布日 2009-10-21
分类号 G06F17/30(2006.01)I 分类 计算;推算;计数;
发明人 张世永;吴承荣;谢剑锋 申请(专利权)人 上海光华如新信息科技股份有限公司
代理机构 - 代理人 -
地址 200433上海市杨浦区国泰路127号3号楼
法律状态 -

摘要

摘要 一种网页结构化数据提取方法,其特征在于包括以下步骤:选择训练网页内容集并提取目标结构化数据;训练所述训练网页内容集获得与所述目标结构化数据匹配的正则表达式;将所述正则表达式写入配置模板;利用所述配置模板采集网页;从所述采集网页中提取结构化数据。依据本发明所提出的网页结构化数据提取方法与系统,可以实现对静态网页和动态网页的结构化数据提取,适用于获取任何类型的网站信息内容并提取结构化数据。