一种基于HTML源代码和网页快照的Web信息抽取方法与系统

基本信息

申请号 CN202110322096.3 申请日 -
公开(公告)号 CN113312568A 公开(公告)日 2021-08-27
申请公布号 CN113312568A 申请公布日 2021-08-27
分类号 G06F16/957(2019.01)I;G06N3/04(2006.01)I;G06K9/62(2006.01)I 分类 计算;推算;计数;
发明人 蔡振华;吴俊;江文涛;张翔;陈延艺 申请(专利权)人 罗普特(厦门)系统集成有限公司
代理机构 厦门福贝知识产权代理事务所(普通合伙) 代理人 陈远洋
地址 361000福建省厦门市思明区软件园二期望海路59号102单元
法律状态 -

摘要

摘要 本发明给出了一种基于HTML源代码和网页快照的Web信息抽取方法与系统,包括通过收集网页快照训练数据,在网页快照训练数据中标注表征网页快照训练数据的类别的标签,得到标注后的网页快照训练数据;将标注后的网页快照训练数据输入混合CNN和BERT的神经网络架构进行模型训练,获取用于抽取网页信息的神经网络模型;最后基于神经网络模型对网络上的标签未知的网页快照数据进行抽取输出标签未知的网页快照数据对应的标签。通过搜集足够数量的网页极其快照,选择具有多样性布局和内容的网页,提高了后续生成的模型的泛化能力,并且将网页快照部分和HTML源代码部分分别输入CNN和BERT,充分利用了文本和网页快照的信息,提升了Web信息抽取的精度。