基于HTML源码特征对网页主题进行快速分类的方法

基本信息

申请号 CN202010597175.0 申请日 -
公开(公告)号 CN111488953A 公开(公告)日 2020-08-04
申请公布号 CN111488953A 申请公布日 2020-08-04
分类号 G06K9/62;G06F16/958 分类 计算;推算;计数;
发明人 简小云;朱雨佳;杨哲;王莉芳;陈金辉 申请(专利权)人 浙江网新恒天软件有限公司
代理机构 杭州求是专利事务所有限公司 代理人 浙江网新恒天软件有限公司
地址 310012 浙江省杭州市教工路23号百脑汇科技大厦18楼
法律状态 -

摘要

摘要 本发明公开了一种基于HTML源码特征对网页主题进行快速分类的方法,本发明通过对网页源代码的自动化解析得到包含网页布局特征的图像数据,该特征通过选定标签蕴含的内容长度和链接长度,选定标签所属的层次关系,以及选定标签之间的距离关系,能够有效地反映出网页的布局信息。然后通过深度学习模型对网页源代码生成的图像数据进行训练,获取该图像数据中包含的网页布局特征,达到利用网页布局特征对海量网页进行快速精准分类的目的。本发明有效地利用了网页源代码中蕴含的网页布局信息,并对该布局信息进行自动化提取和学习,所构造出的分类模型鲁棒性强且分类速度快。