一种网页表格数据通用抓取方法

基本信息

申请号 CN202011599380.7 申请日 -
公开(公告)号 CN112685619A 公开(公告)日 2021-04-20
申请公布号 CN112685619A 申请公布日 2021-04-20
分类号 G06F16/951(2019.01)I;G06F16/955(2019.01)I 分类 计算;推算;计数;
发明人 曹肖林;许琳逸 申请(专利权)人 江苏乐道胡巴投资管理有限公司
代理机构 北京艾皮专利代理有限公司 代理人 马小辉
地址 214000江苏省无锡市滨湖区建筑西路599号A幢1226室
法律状态 -

摘要

摘要 本发明适用于计算机技术领域,提供了一种网页表格数据通用抓取方法;其应用于网页表格数据通用抓取系统,包括以下处理步骤:获取用户输入的自定义抓取内容特征;获取网站的配置文件信息,通过网站的配置文件信息获取个页面的URL路径信息,进一步的获取各页面的数据;对页面信息进行解析,获取表格数据,将表格数据和含有表格数据的该页面网络链接储存至数据库中;对数据库中的表格数据进行比对,将相同数据进行剔除;然后对剔除后的表格数据进行分类排列、展示。