一种抽取新闻网页内容的方法、装置及存储介质专利查询专利号|摘要-满商公司网

一种抽取新闻网页内容的方法、装置及存储介质

基本信息

摘要

摘要	本发明公开一种抽取新闻网页内容的方法、装置及存储介质，涉及新闻网页内容抽取技术领域，包括：获取网页HTML代码、网页HTML线性重构、HTML噪声标签去除、数据集过滤划分、吸收伪噪声段落、生成正文段落；其中，网页HTML线性重构将相互嵌套的呈树状div标签进行线性化，处理线性结构方便定位当个div标签，消除嵌套标签对后续步骤影响；HTML噪声标签去除将减少噪声文字对段落聚类的影响；数据集过滤划分进一步降低噪声对正文段落的影响；吸收伪噪声段落提高了正文段落的召回率。该方法克服了特定网站特定抓取的缺陷，增强了抽取新闻网页内容的通用性；对比已有技术，能够准确高效地抽取新闻内容，具有良好的效果。