基于TAN树形朴素贝叶斯算法网页可点击识别方法及装置

基本信息

申请号 CN201810162571.3 申请日 -
公开(公告)号 CN108388645B 公开(公告)日 2021-08-24
申请公布号 CN108388645B 申请公布日 2021-08-24
分类号 G06F16/951(2019.01)I;G06N7/00(2006.01)I 分类 计算;推算;计数;
发明人 周柳阳;张南迪;许皓天 申请(专利权)人 智言科技(深圳)有限公司
代理机构 深圳市中科创为专利代理有限公司 代理人 梁炎芳
地址 518000广东省深圳市宝安区新安街道创业二路139号新一代信息技术产业园C座318
法律状态 -

摘要

摘要 本发明公开了基于TAN树形朴素贝叶斯算法网页可点击识别方法及系统,该方法包括:包括:步骤S10,操控浏览器获取目标源网页,爬取该网页的数据,并根据获取到的数据构造出标签节点树;步骤S20,根据朴素贝叶斯方法,计算出该标签节点树每一个节点特征在可点击与不可点击类别下的条件概率;步骤S30,根据每个节点可点击的条件概率,计算出每一个对父子节点在可点击与不可点击类别下的条件互信息值,并作为边的权重;步骤S40,根据权重,判断出拥有较高可点击概率的节点,并点击该节点。本发明所涉及的数据爬取以及点击等具体行为不需要人工参与定义,减少人工干预。加入人工智能辅助,爬取过程人工介入量少,训练好的模型可适应大多数目标源,重用性高。