网页信息的提取方法、装置、设备及存储介质
基本信息
申请号 | CN202110018216.0 | 申请日 | - |
公开(公告)号 | CN112732994A | 公开(公告)日 | 2021-04-30 |
申请公布号 | CN112732994A | 申请公布日 | 2021-04-30 |
分类号 | G06F16/951;G06F16/957;G06K9/62;G06N3/04;G06N3/08 | 分类 | 计算;推算;计数; |
发明人 | 张学哲;张浩波 | 申请(专利权)人 | 上海携宁计算机科技股份有限公司 |
代理机构 | 上海晨皓知识产权代理事务所(普通合伙) | 代理人 | 成丽杰 |
地址 | 200030 上海市徐汇区乐山路33号403室 | ||
法律状态 | - |
摘要
摘要 | 本发明公开了一种网页信息的提取方法、装置、设备及存储介质,以解决现有网页信息提取工作量大、维护困难、准确性低的问题。所述网页信息的提取方法包括:获取待提取网页中每一叶子节点的叶子节点路径;根据叶子节点路径,获取叶子节点路径对应的叶子节点的叶子节点信息和叶子节点的父节点的父节点信息,得到叶子节点的节点信息;根据每一叶子节点路径和每一节点信息,构建DOM树;对DOM树中的每一节点进行遍历,并利用预先训练获得的神经网络识别模型对遍历到的每一叶子节点进行分析,得到每一叶子节点的分析结果;根据每一叶子节点的分析结果,确定待提取信息的提取路径;根据提取路径,从待提取网页中提取待提取信息。 |
