一种复杂网页结构化信息精确提取方法、设备及存储介质

基本信息

申请号 CN202110701621.2 申请日 -
公开(公告)号 CN113254751B 公开(公告)日 2021-09-21
申请公布号 CN113254751B 申请公布日 2021-09-21
分类号 G06F16/951(2019.01)I;G06F16/953(2019.01)I;G06F16/958(2019.01)I 分类 计算;推算;计数;
发明人 安永进;武伟;孙江;邵郑翰 申请(专利权)人 北森云计算有限公司
代理机构 成都九鼎天元知识产权代理有限公司 代理人 徐静
地址 610041四川省成都市高新区萃华路89号1栋1单元4001号
法律状态 -

摘要

摘要 本发明公开了一种复杂网页结构化信息精确提取方法、设备及存储介质,该方法包括:针对目标网页,收集一批样本网页;根据样本网页制定各个区块的查找规则和匹配规则;结合区块情况确定条目的查找规则和匹配规则;在区块内确定定位节点的查找规则和匹配规则;针对字段节点,确定从定位节点到此字段节点的查找规则和匹配规则;通过基于规则或机器学习的方法自动提取各个样本网页中的字段信息;根据提取的字段信息自动生成解析模板;对自动生成的解析模板进行校对纠正;针对任意HTML网页,根据域名、路径和文本特征选择对应的模板解析提取。本发明基于复杂网页特点,将其划分为多个区块,并利用定位节点的固有特征,提高了字段节点定位准确度。