一种网络恶意爬虫识别方法、系统、终端及存储介质

基本信息

申请号 CN202010678053.4 申请日 -
公开(公告)号 CN111859069B 公开(公告)日 2021-10-15
申请公布号 CN111859069B 申请公布日 2021-10-15
分类号 G06F16/951(2019.01)I;G06K9/62(2006.01)I;G06N20/00(2019.01)I 分类 计算;推算;计数;
发明人 王广清;方铁城;申彦龙;刘颖 申请(专利权)人 北京市燃气集团有限责任公司
代理机构 北京天方智力知识产权代理事务所(普通合伙) 代理人 路远
地址 100035北京市西城区西直门南小街22号
法律状态 -

摘要

摘要 本申请所提供的一种网络恶意爬虫识别方法、系统、终端及存储介质,所述方法包括:获取待检测网络地址及待检测网络地址对应的用户访问信息;根据所述用户访问信息提取访问源地址及访问特征;以访问源地址作为分组进行类别聚合,提取预设访问时间段内的特定访问源地址的访问特征,并利用DBSCAN算法训练无监督聚类机器学习模型,进行异常爬取账单识别;通过人工判定方式对异常爬取账单进行恶意账单爬虫识别;获取标记的恶意账单爬虫的访问源地址及访问特征,并利用XGBoost算法训练有监督机器学习模型,进行恶意账单爬虫的访问源地址识别;从而实现相同行为的访问源地址会自动进行恶意爬虫识别。