一种基于抽取模板的网页正文抽取方法及装置
基本信息
申请号 | CN201810760576.6 | 申请日 | - |
公开(公告)号 | CN109033282B | 公开(公告)日 | 2021-07-23 |
申请公布号 | CN109033282B | 申请公布日 | 2021-07-23 |
分类号 | G06F16/9535(2019.01)I;G06N3/04(2006.01)N;G06K9/62(2006.01)N | 分类 | 计算;推算;计数; |
发明人 | 董瑞朝;董新建;李贞 | 申请(专利权)人 | 山东邦尼信息科技有限公司 |
代理机构 | 北京超凡志成知识产权代理事务所(普通合伙) | 代理人 | 梁斌 |
地址 | 250000山东省济南市高新区新泺大街2008号银荷大厦4-201-101 | ||
法律状态 | - |
摘要
摘要 | 本发明提供一种基于抽取模板的网页正文抽取方法及装置。所述方法包括:获取待抽取正文信息的网页的网页信息,网页的IP地址和网页内容;若判断获知抽取方式为模板抽取,则获取网页信息对应的目标抽取模板,目标抽取模板中包括至少一个段起始信息和至少一个段结尾信息;根据段起始信息和段结尾信息对网页进行分段处理,获得一个或多个网页段;依次对各网页段进行字段抽取获得每一网页段对应多个字段;利用数据库中的字典对字段进行字典映射获得所述字典中与字段对应的字典字段,将字段存入所述字典字段对应的数据表中,以实现对所述网页中正文的抽取。装置用于执行上述方法。本发明可以方便快速地获取到网页中的正文信息。 |
