一种抽取新闻网页内容的方法、装置及存储介质
基本信息
申请号 | CN201810863031.8 | 申请日 | - |
公开(公告)号 | CN109271598B | 公开(公告)日 | 2021-03-12 |
申请公布号 | CN109271598B | 申请公布日 | 2021-03-12 |
分类号 | G06F16/958(2019.01)I;G06F16/953(2019.01)I | 分类 | 计算;推算;计数; |
发明人 | 陈贺 | 申请(专利权)人 | 数地工场(南京)科技有限公司 |
代理机构 | 广州容大知识产权代理事务所(普通合伙) | 代理人 | 刘新年 |
地址 | 511458广东省广州市南沙区环市大道中27号1920房 | ||
法律状态 | - |
摘要
摘要 | 本发明公开一种抽取新闻网页内容的方法、装置及存储介质,涉及新闻网页内容抽取技术领域,包括:获取网页HTML代码、网页HTML线性重构、HTML噪声标签去除、数据集过滤划分、吸收伪噪声段落、生成正文段落;其中,网页HTML线性重构将相互嵌套的呈树状div标签进行线性化,处理线性结构方便定位当个div标签,消除嵌套标签对后续步骤影响;HTML噪声标签去除将减少噪声文字对段落聚类的影响;数据集过滤划分进一步降低噪声对正文段落的影响;吸收伪噪声段落提高了正文段落的召回率。该方法克服了特定网站特定抓取的缺陷,增强了抽取新闻网页内容的通用性;对比已有技术,能够准确高效地抽取新闻内容,具有良好的效果。 |
