域识别加主题识别构建机器学习模型检测网页暗链的方法

基本信息

申请号 CN201710853580.2 申请日 -
公开(公告)号 CN107566391B 公开(公告)日 2018-01-09
申请公布号 CN107566391B 申请公布日 2018-01-09
分类号 H04L29/06(2006.01)I 分类 电通信技术;
发明人 孟雷 申请(专利权)人 上海斗象信息科技有限公司
代理机构 上海翰信知识产权代理事务所(普通合伙) 代理人 上海斗象信息科技有限公司
地址 201203上海市浦东新区自由贸易试验区碧波路690号8号楼102室
法律状态 -

摘要

摘要 本发明提供了一种域识别加主题识别构建机器学习模型检测网页暗链的方法,包括:收集大量含已被标注为包含暗链的网页源码和标注为正常的网页源码作为训练集,通过可疑域识别、敏感域识别、安全域识别、全域分析和主题识别提取每个网页源码中风险文本、风险度、主题异样度、主题、风险文本向量、风险文本异常概率、以及风险文本长度,将训练集中所有网页源码的特征数据用机器学习算法进行模型训练得到分类判别模型,最后,将待预测网页源码的特征数据导入分类判别模型中,得到待预测网页源码是否包含暗链,因此,本发明对高混杂暗链代码识别效果好、特征提取的比较完整、且能够很好解决传统方法无法正确区分暗链和页面篡改的问题。