一种基于网页标签分布特征的网络数据自动清洗方法和系统
基本信息
申请号 | 2020111300522 | 申请日 | - |
公开(公告)号 | CN112270172A | 公开(公告)日 | 2021-01-26 |
申请公布号 | CN112270172A | 申请公布日 | 2021-01-26 |
分类号 | G06F40/216(2020.01)I; | 分类 | 计算;推算;计数; |
发明人 | 朱俊杰 | 申请(专利权)人 | 北京钛氪新媒体科技有限公司 |
代理机构 | 北京华际知识产权代理有限公司 | 代理人 | 叶宇 |
地址 | 100089北京市海淀区中关村大街1号11层1119-86 | ||
法律状态 | - |
摘要
摘要 | 本发明公开了一种基于网页标签分布特征的网络新闻数据自动清洗的方法和系统,利用离线爬虫系统爬取网络新闻数据:对爬取的离线新闻数据进行树节点解析,提取节点当中的标签名称、属性、文本、链接等属性信息;采用基于n‑gram2vec的思想通过当前节点预测其他节点块信息,通过训练得到标签的词嵌入信息基于预训练的词嵌入信息构建智能模型判别系统,决定平铺的节点的去留:智能模型根据文章标签的类型分为文本判别模型和图片判别模型,两类模型采用不同特征工程进行训练,最终进行预测,将二者结果根据之前的节点序列组合起来。 |
