一种网页数据结构化提取的方法
基本信息
申请号 | CN202010303525.8 | 申请日 | - |
公开(公告)号 | CN111523303A | 公开(公告)日 | 2020-08-11 |
申请公布号 | CN111523303A | 申请公布日 | 2020-08-11 |
分类号 | G06F40/216(2020.01)I | 分类 | - |
发明人 | 徐利东;远贵良 | 申请(专利权)人 | 山东贝赛信息科技有限公司 |
代理机构 | 济南瑞宸知识产权代理有限公司 | 代理人 | 山东贝赛信息科技有限公司 |
地址 | 250000山东省济南市经十路7000号汉峪金谷金融商务中心A4-(3)办公楼34层3401室 | ||
法律状态 | - |
摘要
摘要 | 本发明公开了本发明一种网页数据结构化提取的方法,网页数据结构化提取方法:网页源代码获取、解析页面标签、提取时间信息、判断标题特征、提取信息、完成分析。本发明的优点:可以不基于规则提取,适用于大规模数据采集的业务场景;支持网页的发布时间、标题、正文内容的提取;不受网页排版、布局的影响。 |
