泛滥子域的识别方法和系统

基本信息

申请号 CN201210256109.2 申请日 -
公开(公告)号 CN103581347B 公开(公告)日 2019-03-26
申请公布号 CN103581347B 申请公布日 2019-03-26
分类号 H04L29/12(2006.01)I 分类 电通信技术;
发明人 李学凯; 张锋 申请(专利权)人 深圳市世纪光速信息技术有限公司
代理机构 北京华沛德权律师事务所 代理人 刘杰
地址 518057 广东省深圳市南山区粤海街道科技中一路腾讯大厦16层
法律状态 -

摘要

摘要 本发明实施例公开了一种泛滥子域的识别方法和系统,涉及计算机技术领域,应用于搜索引擎,根据子域名的任一有效片段组的片段长度的离散度或集中度来识别泛滥子域,可有效提高泛滥子域识别程度。本发明实施例提供的方法包括:收集具有相同主域名的子域名;若判断所述具有相同主域名的子域名的任一有效片段组的片段长度为离散分布或集中分布,则将所述任一有效片段组对应的子域名识别为泛滥子域,其中,所述有效片段组为:在所述具有相同主域名的子域名的同一级片段中,所述同一级片段的左侧域名部分和右侧域名部分分别相同的片段集合。