标记样本的方法、系统、设备及介质

基本信息

申请号 CN201911158382.X 申请日 -
公开(公告)号 CN112839010A 公开(公告)日 2021-05-25
申请公布号 CN112839010A 申请公布日 2021-05-25
分类号 H04L29/06;G06N20/00;H04L29/08 分类 电通信技术;
发明人 潘廷珅;丛磊 申请(专利权)人 北京数安鑫云信息技术有限公司
代理机构 北京名华博信知识产权代理有限公司 代理人 苗源
地址 100015 北京市朝阳区酒仙桥北路甲10号院201号楼5层505内02
法律状态 -

摘要

摘要 本发明公开了一种标记样本的方法、系统、设备及介质,方法包括:获取每个url_pattern在第一预设时间段内的页面浏览量,以及访问该url_pattern的去重后的IP地址数量,以确定危险url_pattern;获取第二预设时间段内访问每一个危险url_pattern的IP地址的时间参数和页面浏览参数,进而确定出现异常访问的IP地址,将出现异常访问的IP地址标记为正样本。使用本发明中的方法标记正样本,不仅标记准确性高、减少人力成本,而且标记效率高、通用性好,以便给机器学习模型中筛选正样本数据。