一种网页数据结构化提取的方法

基本信息

申请号 CN202010303525.8 申请日 -
公开(公告)号 CN111523303A 公开(公告)日 2020-08-11
申请公布号 CN111523303A 申请公布日 2020-08-11
分类号 G06F40/216(2020.01)I 分类 -
发明人 徐利东;远贵良 申请(专利权)人 山东贝赛信息科技有限公司
代理机构 济南瑞宸知识产权代理有限公司 代理人 山东贝赛信息科技有限公司
地址 250000山东省济南市经十路7000号汉峪金谷金融商务中心A4-(3)办公楼34层3401室
法律状态 -

摘要

摘要 本发明公开了本发明一种网页数据结构化提取的方法,网页数据结构化提取方法:网页源代码获取、解析页面标签、提取时间信息、判断标题特征、提取信息、完成分析。本发明的优点:可以不基于规则提取,适用于大规模数据采集的业务场景;支持网页的发布时间、标题、正文内容的提取;不受网页排版、布局的影响。