一种应用服务器的爬虫检测方法和识别网络模型

基本信息

申请号 CN202110003244.5 申请日 -
公开(公告)号 CN112699290A 公开(公告)日 2021-04-23
申请公布号 CN112699290A 申请公布日 2021-04-23
分类号 G06F16/951;G06N3/04;G06N3/08 分类 计算;推算;计数;
发明人 王勇科;杨亮;刘国宏 申请(专利权)人 成都瑞小博科技有限公司
代理机构 成都佳划信知识产权代理有限公司 代理人 幸伟山
地址 610000 四川省成都市高新区天益街38号1栋1-3层
法律状态 -

摘要

摘要 本发明公开了一种应用服务器的爬虫检测方法,包括:根据相同的用户字段IpId和用户字段UserAgent进行分组,对任一分组对应的日志按时间先后顺序排列,以时间间隔T1进行划分,并生成对应的会话控制id;对任一会话控制id对应的日志按时间T2进行重采样,得到时序特征;采用滑动获取时序特征,并组成训练集和测试集的样本数据;对训练集的所述样本数据进行Z‑Score标准化处理,得到n个二维特征数据;根据用户字段UserAgent对二维特征数据进行标签;构建LSTM的识别网络模型,将带标签的二维特征数据输入至LSTM的识别网络模型,并结合二分类交叉熵损失函数进行训练,得到训练后的网络模型;将测试集的样本数据输入至网络模型,以检测出爬虫和非爬虫。