一种基于网页标签分布特征的网络数据自动清洗方法和系统专利查询专利号|摘要-满商公司网

一种基于网页标签分布特征的网络数据自动清洗方法和系统

基本信息

摘要

摘要	本发明公开了一种基于网页标签分布特征的网络新闻数据自动清洗的方法和系统，利用离线爬虫系统爬取网络新闻数据：对爬取的离线新闻数据进行树节点解析，提取节点当中的标签名称、属性、文本、链接等属性信息；采用基于n‑gram2vec的思想通过当前节点预测其他节点块信息，通过训练得到标签的词嵌入信息基于预训练的词嵌入信息构建智能模型判别系统，决定平铺的节点的去留：智能模型根据文章标签的类型分为文本判别模型和图片判别模型，两类模型采用不同特征工程进行训练，最终进行预测，将二者结果根据之前的节点序列组合起来。