万维网网页信息提取方法、存储介质及计算机设备

基本信息

申请号 CN201810214406.8 申请日 -
公开(公告)号 CN108520007B 公开(公告)日 2021-09-28
申请公布号 CN108520007B 申请公布日 2021-09-28
分类号 G06F16/957(2019.01)I 分类 计算;推算;计数;
发明人 孙洋 申请(专利权)人 江河瑞通(北京)技术有限公司
代理机构 北京三友知识产权代理有限公司 代理人 贾磊;王涛
地址 100085北京市海淀区信息路28号7层A646
法律状态 -

摘要

摘要 本发明提供了一种万维网网页信息提取方法、存储介质及计算机设备,该方法包括:通过互联网超文本传输协议获取万维网网页的HTML文档;从所述HTML文档提取网页信息,包括:从所述HTML文档提取关键字;将所述HTML文档分割为正文部分和标题部分;根据词频匹配度从所述标题部分提取标题;通过匹配日期表达式从所述HTML文档提取发布时间;通过底部特征信息分析从所述正文部分提取正文内容;从所述正文内容提取摘要;其中,所述网页信息包含所述标题、所述发布时间、所述摘要、所述关键字及所述正文内容中的一个或多个。本发明能够从万维网网页中提取真实信息。