一种网站相似度检测方法

基本信息

申请号 CN201810705000.X 申请日 -
公开(公告)号 CN109062981B 公开(公告)日 2021-09-10
申请公布号 CN109062981B 申请公布日 2021-09-10
分类号 G06F16/958;G06F16/955;G06F16/951;G06F16/33;G06F40/194;G06F40/211 分类 计算;推算;计数;
发明人 余明阳;查志勇;詹伟;向湘杰 申请(专利权)人 东莞市华睿电子科技有限公司
代理机构 北京高航知识产权代理有限公司 代理人 王卓
地址 430000 湖北省武汉市洪山区徐东大街341号
法律状态 -

摘要

摘要 本发明提供了一种网站相似度检测方法,通过服务器提取待检测网站中各个页面的文本信息,并将各个页面的文本信息整合为第一文本;所述服务器根据爬取任务配置文件开启网络URL信息爬取,获取各个网站所含文本信息,并将爬取的文本信息整合为第二文本;所述服务器计算第一文本与各个网站所对应的第二文本所含文本信息之间的相似度;若相似度超出预设阈值,则判定待检测网站与爬取到的文字信息相对应网站内容重复。对判定出的相同内容网站进行辨别,确认出是否为钓鱼网站。本发明公开的网站相似度检测方法,在现有技术的基础上,增加了网站信息智能爬取和爬取信息的相似度匹配的步骤,提高了钓鱼网站的快速识别。