识别爬虫的方法、装置、设备和计算机存储介质

基本信息

申请号 CN202010647106.6 申请日 -
公开(公告)号 CN112003819A 公开(公告)日 2020-11-27
申请公布号 CN112003819A 申请公布日 2020-11-27
分类号 H04L29/06(2006.01)I 分类 电通信技术;
发明人 余燕;李华君;姜帆;刘国平 申请(专利权)人 瑞数信息技术(上海)有限公司
代理机构 北京鸿德海业知识产权代理事务所(普通合伙) 代理人 瑞数信息技术(上海)有限公司
地址 200086上海市虹口区四平路710号735-V室
法律状态 -

摘要

摘要 本申请公开了一种识别爬虫的方法、装置、设备和计算机存储介质。其中方法包括:获取用户在预设时段内的访问路径序列;将所述访问路径序列划分为一个以上的子序列;利用序列模式挖掘算法,将划分后得到的各子序列作为序列数据集进行频繁序列模式挖掘,得到频繁序列;判断得到的频繁序列是否符合爬虫特征,如果是,则确定所述用户为爬虫。本申请能够对模拟用户操作但循环访问某些路径序列的爬虫进行有效识别,从而提高了爬虫的识别准确率。