一种网络恶意爬虫识别方法、系统、终端及存储介质
基本信息
申请号 | CN202010678053.4 | 申请日 | - |
公开(公告)号 | CN111859069B | 公开(公告)日 | 2021-10-15 |
申请公布号 | CN111859069B | 申请公布日 | 2021-10-15 |
分类号 | G06F16/951(2019.01)I;G06K9/62(2006.01)I;G06N20/00(2019.01)I | 分类 | 计算;推算;计数; |
发明人 | 王广清;方铁城;申彦龙;刘颖 | 申请(专利权)人 | 北京市燃气集团有限责任公司 |
代理机构 | 北京天方智力知识产权代理事务所(普通合伙) | 代理人 | 路远 |
地址 | 100035北京市西城区西直门南小街22号 | ||
法律状态 | - |
摘要
摘要 | 本申请所提供的一种网络恶意爬虫识别方法、系统、终端及存储介质,所述方法包括:获取待检测网络地址及待检测网络地址对应的用户访问信息;根据所述用户访问信息提取访问源地址及访问特征;以访问源地址作为分组进行类别聚合,提取预设访问时间段内的特定访问源地址的访问特征,并利用DBSCAN算法训练无监督聚类机器学习模型,进行异常爬取账单识别;通过人工判定方式对异常爬取账单进行恶意账单爬虫识别;获取标记的恶意账单爬虫的访问源地址及访问特征,并利用XGBoost算法训练有监督机器学习模型,进行恶意账单爬虫的访问源地址识别;从而实现相同行为的访问源地址会自动进行恶意爬虫识别。 |
