一种网页内容抽取的方法及装置专利查询专利号|摘要-满商公司网

一种网页内容抽取的方法及装置

基本信息

摘要

摘要	本发明公开一种网页内容抽取的方法及装置，涉及信息技术领域，可以在进行网页内容抽取时，准确抽取网页标题以及网页中各个元素。本发明通过将HTML源码转换为对应的文档树结构，并根据文档树结构的TITLE标签，确定网页标题；根据网页标题，确定网页中的网页元素，网页元素至少包括网站LOGO、页面导航、新闻发布时间、新闻来源；根据网页标题，以及文档树结构的文本块的密度和文字数，确定各个文本块的属性；抽取所述网页标题、所述网页元素以及所述网页内容为正文的正文文本块，获取网页全文。本发明提供的方案适于进行网页内容抽取时采用。