政策类网页正文提取方法、系统、设备及存储介质
基本信息
申请号 | CN202010825873.1 | 申请日 | - |
公开(公告)号 | CN111966901B | 公开(公告)日 | 2021-04-20 |
申请公布号 | CN111966901B | 申请公布日 | 2021-04-20 |
分类号 | G06F16/9535(2019.01)I;G06F16/955(2019.01)I;G06F16/958(2019.01)I | 分类 | 计算;推算;计数; |
发明人 | 李钊;卢凤;陈通;王瑞霜;胡传会;魏静 | 申请(专利权)人 | 山东亿云信息技术有限公司 |
代理机构 | 济南圣达知识产权代理有限公司 | 代理人 | 黄海丽 |
地址 | 250014山东省济南市高新区新泺大街2008号银荷大厦B座3层 | ||
法律状态 | - |
摘要
摘要 | 本发明公开了政策类网页正文提取方法、系统、设备及存储介质,包括:获取政策网页HTML源代码;根据政策网页HTML源代码,获取网页正文所在的位置;根据网页正文所在的位置,获取正文所对应的HTML源代码,输出正文所对应的HTML源代码。过分析政策网页的页面组织结构规则,构建网页组织结构和网页正文位置的关系,获取网页正文内容。从而实现对政策类网页正文的快速、有效提取。本发明的实施使得政策类网页正文的提取实现了快速、高效获取,大大提高了工作效率,节省公司的人力成本,同时经验证,该发明也取得较高的准确率。 |
