一种应用服务器的爬虫检测方法和识别网络模型
基本信息
申请号 | CN202110003244.5 | 申请日 | - |
公开(公告)号 | CN112699290A | 公开(公告)日 | 2021-04-23 |
申请公布号 | CN112699290A | 申请公布日 | 2021-04-23 |
分类号 | G06F16/951;G06N3/04;G06N3/08 | 分类 | 计算;推算;计数; |
发明人 | 王勇科;杨亮;刘国宏 | 申请(专利权)人 | 成都瑞小博科技有限公司 |
代理机构 | 成都佳划信知识产权代理有限公司 | 代理人 | 幸伟山 |
地址 | 610000 四川省成都市高新区天益街38号1栋1-3层 | ||
法律状态 | - |
摘要
摘要 | 本发明公开了一种应用服务器的爬虫检测方法,包括:根据相同的用户字段IpId和用户字段UserAgent进行分组,对任一分组对应的日志按时间先后顺序排列,以时间间隔T1进行划分,并生成对应的会话控制id;对任一会话控制id对应的日志按时间T2进行重采样,得到时序特征;采用滑动获取时序特征,并组成训练集和测试集的样本数据;对训练集的所述样本数据进行Z‑Score标准化处理,得到n个二维特征数据;根据用户字段UserAgent对二维特征数据进行标签;构建LSTM的识别网络模型,将带标签的二维特征数据输入至LSTM的识别网络模型,并结合二分类交叉熵损失函数进行训练,得到训练后的网络模型;将测试集的样本数据输入至网络模型,以检测出爬虫和非爬虫。 |
