一种基于网络爬虫的文本信息爬取方法

基本信息

申请号 CN201810705012.2 申请日 -
公开(公告)号 CN109002508B 公开(公告)日 2021-08-06
申请公布号 CN109002508B 申请公布日 2021-08-06
分类号 G06F16/951;G06F16/955;G06F16/33;G06F40/211;G06F40/289 分类 计算;推算;计数;
发明人 向湘杰 申请(专利权)人 东莞市华睿电子科技有限公司
代理机构 北京成实知识产权代理有限公司 代理人 陈永虔
地址 200000 上海市嘉定区尚学路225、229号3幢2078室
法律状态 -

摘要

摘要 本发明提供了一种基于网络爬虫的文本信息爬取方法,通过服务器获取网络爬虫任务的配置文件和第一文本;所述服务器根据所述配置文件开启网络URL信息爬取,并将爬取的信息整合为待处理信息;所述服务器对所述待处理信息进行查重及删除重复内容处理后,得到第二文本;所述服务器计算第一文本与第二文本之间的相似度,若相似度超出预设阈值,则输出第二文本。本发明基于网络爬虫进行信息获取,并针对第一文本和第二文本的相似度判定本次爬取的信息是否符合要求,所以提高了信息爬取的效率。