政策类网页正文提取方法、系统、设备及存储介质

基本信息

申请号 CN202010825873.1 申请日 -
公开(公告)号 CN111966901B 公开(公告)日 2021-04-20
申请公布号 CN111966901B 申请公布日 2021-04-20
分类号 G06F16/9535(2019.01)I;G06F16/955(2019.01)I;G06F16/958(2019.01)I 分类 计算;推算;计数;
发明人 李钊;卢凤;陈通;王瑞霜;胡传会;魏静 申请(专利权)人 山东亿云信息技术有限公司
代理机构 济南圣达知识产权代理有限公司 代理人 黄海丽
地址 250014山东省济南市高新区新泺大街2008号银荷大厦B座3层
法律状态 -

摘要

摘要 本发明公开了政策类网页正文提取方法、系统、设备及存储介质,包括:获取政策网页HTML源代码;根据政策网页HTML源代码,获取网页正文所在的位置;根据网页正文所在的位置,获取正文所对应的HTML源代码,输出正文所对应的HTML源代码。过分析政策网页的页面组织结构规则,构建网页组织结构和网页正文位置的关系,获取网页正文内容。从而实现对政策类网页正文的快速、有效提取。本发明的实施使得政策类网页正文的提取实现了快速、高效获取,大大提高了工作效率,节省公司的人力成本,同时经验证,该发明也取得较高的准确率。