万维网网页信息提取方法、存储介质及计算机设备
基本信息
申请号 | CN201810214406.8 | 申请日 | - |
公开(公告)号 | CN108520007B | 公开(公告)日 | 2021-09-28 |
申请公布号 | CN108520007B | 申请公布日 | 2021-09-28 |
分类号 | G06F16/957(2019.01)I | 分类 | 计算;推算;计数; |
发明人 | 孙洋 | 申请(专利权)人 | 江河瑞通(北京)技术有限公司 |
代理机构 | 北京三友知识产权代理有限公司 | 代理人 | 贾磊;王涛 |
地址 | 100085北京市海淀区信息路28号7层A646 | ||
法律状态 | - |
摘要
摘要 | 本发明提供了一种万维网网页信息提取方法、存储介质及计算机设备,该方法包括:通过互联网超文本传输协议获取万维网网页的HTML文档;从所述HTML文档提取网页信息,包括:从所述HTML文档提取关键字;将所述HTML文档分割为正文部分和标题部分;根据词频匹配度从所述标题部分提取标题;通过匹配日期表达式从所述HTML文档提取发布时间;通过底部特征信息分析从所述正文部分提取正文内容;从所述正文内容提取摘要;其中,所述网页信息包含所述标题、所述发布时间、所述摘要、所述关键字及所述正文内容中的一个或多个。本发明能够从万维网网页中提取真实信息。 |
