一种网站识别方法及识别系统

基本信息

申请号 CN201810696532.1 申请日 -
公开(公告)号 CN108875060B 公开(公告)日 2021-02-26
申请公布号 CN108875060B 申请公布日 2021-02-26
分类号 G06F16/9535(2019.01)I 分类 计算;推算;计数;
发明人 余刚 申请(专利权)人 成都映潮科技股份有限公司
代理机构 成都创新引擎知识产权代理有限公司 代理人 向群
地址 610041 四川省成都市高新区天府大道中段666号2栋34层3406号
法律状态 -

摘要

摘要 本发明提供了一种网站识别方法及识别系统,该方法包括:采集至少三个样本网页分别对应的至少三个样本网址和至少三个样本源代码;根据预设的至少两个特征类型,从每一个所述样本源代码中解析出每一个所述特征类型对应的特征值;根据解析出的每一个所述样本源代码对应的各个所述特征值,构建所述至少三个样本网址对应的随机森林模型;还包括:获取待识别网站网址;利用所述随机森林模型确定所述待识别网站网址的网站类型。本方案能提高识别网站类型的准确度。